Posted in

OmniGen2:会改稿的AI生图“狠角色”

还在为了一张图片,而在生图软件和修图软件之间反复横跳吗?智源研究院最新推出的OmniGen2,正在尝试打造AI生图+改稿的全能助手,为普通用户的AI生图操作提供“All in One”解决方案。

OmniGen2现已上线appmall.ai,低至2.3元/小时。今天AppMall就带大家来看看,这个海外社交平台话题浏览量数十万的新款AI神器,在实测过程中表现如何吧。

OmniGen2为何堪称“狠角色”?

OmniGen一代是国内头部AI科研机构——智源研究院在2024年9月初次推出的,最近刚刚迭代出OmniGen2。它比目前市面上的主流AI生图软件相比,主要有以下优势:

  • “懂人话”:用户可以直接使用自然语音(也就是大白话)对AI发出指令,非常便捷流畅。比如“去掉画面中的狗”,或者“把这只鱼改成蓝色”。
  • “多语种”:因为是中国团队开发,所以对中文语义的理解一点儿都不输英文,对普通用户更友好。
  • “能改稿”:除了AI生图之外,OmniGen2自带改稿功能,完美填补了其他软件抽卡率低的痛点,可以直接替代PS等修图软件,一键进行背景更换、表情修改、动作调整、物体增删、元素组合等。
  • “马上好”:在满足70分交卷质量的基础上,能保证复杂的生图、修图需求在2分钟左右即交付,轻量化、高效率。

OmniGen2实测效果如何?

OmniGen2现已上线appmall.ai,低至2.3元/小时。安装并进入应用后,可以看到,对比其他主流AI生图软件,OmniGen2设置了1个提示词文字位+3个图片参考位,以适应“改稿”的要求。

下面我们通过逐步进阶的方式,整体测试下OmniGen2在不同功能场景下的实际操作表现。

(1)初始难度:文生图

我们直接使用一段中文提示词,来测试图片生成功能:“生成一幅猫咪在户外的场景图。画面主体是一只黑白花色的猫,它趴在布满石块的地面上,舌头吐出,姿态悠闲。背景是模糊的水域,营造出宁静氛围,整体给人一种自然、惬意的感觉,展现出猫咪在户外放松的状态,仿佛在享受这片刻的闲适时光。”

同时又测试了几组复杂提示词(比如赛博朋克风格等)。得出的结论是:作为AI生图应用的基础功能,文生图方面OmniGen2的整体表现中规中矩、无可厚非,更擅长偏实景类生图,对于需要想象力的内容,整体表现还是略显“塑料感”。

因此,OmniGen2比较适合对图片细节要求不算太高的用户场景,比如文章配图等。

(2)中等难度:局部调整

市面上的主流AI生图软件,如果一次性抽卡的成果物达不到要求,往往无法进行局部的修改,更不支持自主选择原始图片的“修片”。因此,支持背景更换、表情修改、动作调整等功能的OmniGen2,在这一细分场景自然更胜一筹。

首先,我们指示OmniGen2基于左图主体人物不变,将背景更换为雪山。可以看到,除了部分细节略显塑料(比如雪山山脉的走势有些生硬,人物的右手放大后有些幻觉感)之外,图片能够做到整体可用。背景更换场景,OmniGen2算是过关。

接下来是表情修改场景。我们使用系统自带的sample图片进行测试,看到生成图片很好地保留了人物的发色、胡子、背景图片的细节不变。(注:生成图片尺寸与原图一致,本文考虑图片观看效果,所以仅截取了部分区域,下同。)

再看看动作调整。这次使用非常口语化的英文提示词“Raise his hand”,2分钟后可以看到,生成图片效果不错,手已经举起来了,并且没有违和感,手部细节也做到了零幻觉。

(3)高级难度:排列重组

再来测试一下物体增删、颜色修改、元素组合等HARD模式下,OmniGen2的实际表现。

物体增删方面,通过提示词,要求AI去掉左侧穿红色外套的人。从成片来看,勉强能够达到效果。这里也有一个小tips:原始图片的清晰度非常影响生成质量,这里上传的原始图片清晰度不高,因此生成图片有点糊化。

颜色修改方面,OmniGen2的表现就显得有些魔幻。被要求把画面中的鱼改成蓝色,虽然说确实从字面上完成了任务,但是毫无活人感,可以说直接扑街。

另外就是此前网上吹爆的多主体合影功能,也不得不说OmniGen2主打一个“已读乱回”,虽然勉为其难识别出了图1是长颈鹿、图2是大象(背影),但是合成图片首先在比例上就非常错误,同时充满塑料感。

  • 进阶设置:参数调节

OmniGen2也有进阶设置区,除了AppMall聊过好多次的负面提示词(不希望AI出现的效果或元素)和图片尺寸设置之外,解读下其他参数的含义:

Text Guidance Scale(文本引导强度):值为5 ,数值越高,生成图像越严格遵循文本 prompt 描述,过低可能让画面偏离文字设定,过高易让画面细节生硬。

Image Guidance Scale(图像引导强度,基于参考图生成时生效):设为2 ,影响参考图对生成结果的约束程度,数值大,参考图特征在输出中越明显。

CFG Range Start & End(CFG 范围):Start为 0、End为 1 ,限定模型在生成时参考文本 prompt 的强度范围,影响画面创意与文本契合度的权衡。

Scheduler(调度器):不同调度器(如 euler、DDIM 等 )会让生成过程、画面效果有差异,euler 相对计算快、效果稳定。

Inference Steps(推理步数):设为50 ,指模型去噪迭代次数,步数多,画面细节、质量理论上越好,但生成时间也越长,需在效果和速度间找平衡。

Number of Images per Prompt:设为1 ,即每次按 prompt 生成 1 张图,可调整生成多张对比选。

Seed(随机种子):为 0 时,每次生成随机;设固定值(如 2147483647 ),能复现之前相同参数的生成结果,方便调试、保留特定风格。

Max_input_image_side_length & max_pixels(输入限制):限制输入和输出图像的最大像素,避免因画面过大超出硬件、模型承载,保证生成稳定。

OmniGen2试用tips总结

(1)整体来看,更适合对生成图片70-80分预期的普通场景,如文章配图。复杂场景的胜任度并不是很好。

(2)参考图越清晰,生成图像的质量越好。

(3)支持中英双语提示词,但是对英文的理解要优于中文,因此对生成图像质量有高要求,最好使用英文。

(4)改稿功能可以加大分,尤其适合ps等修图软件水平一般的普通用户。

    还在等什么?快来appmall.ai,自己解锁它的更多隐藏功能吧~