OmniGen2：会改稿的AI生图“狠角色”

还在为了一张图片，而在生图软件和修图软件之间反复横跳吗？智源研究院最新推出的OmniGen2，正在尝试打造AI生图+改稿的全能助手，为普通用户的AI生图操作提供“All in One”解决方案。

OmniGen2现已上线appmall.ai，低至2.3元/小时。今天AppMall就带大家来看看，这个海外社交平台话题浏览量数十万的新款AI神器，在实测过程中表现如何吧。

OmniGen2为何堪称“狠角色”？

OmniGen一代是国内头部AI科研机构——智源研究院在2024年9月初次推出的，最近刚刚迭代出OmniGen2。它比目前市面上的主流AI生图软件相比，主要有以下优势：

“懂人话”：用户可以直接使用自然语音（也就是大白话）对AI发出指令，非常便捷流畅。比如“去掉画面中的狗”，或者“把这只鱼改成蓝色”。
“多语种”：因为是中国团队开发，所以对中文语义的理解一点儿都不输英文，对普通用户更友好。
“能改稿”：除了AI生图之外，OmniGen2自带改稿功能，完美填补了其他软件抽卡率低的痛点，可以直接替代PS等修图软件，一键进行背景更换、表情修改、动作调整、物体增删、元素组合等。
“马上好”：在满足70分交卷质量的基础上，能保证复杂的生图、修图需求在2分钟左右即交付，轻量化、高效率。

OmniGen2实测效果如何？

OmniGen2现已上线appmall.ai，低至2.3元/小时。安装并进入应用后，可以看到，对比其他主流AI生图软件，OmniGen2设置了1个提示词文字位+3个图片参考位，以适应“改稿”的要求。

下面我们通过逐步进阶的方式，整体测试下OmniGen2在不同功能场景下的实际操作表现。

（1）初始难度：文生图

我们直接使用一段中文提示词，来测试图片生成功能：“生成一幅猫咪在户外的场景图。画面主体是一只黑白花色的猫，它趴在布满石块的地面上，舌头吐出，姿态悠闲。背景是模糊的水域，营造出宁静氛围，整体给人一种自然、惬意的感觉，展现出猫咪在户外放松的状态，仿佛在享受这片刻的闲适时光。”

同时又测试了几组复杂提示词（比如赛博朋克风格等）。得出的结论是：作为AI生图应用的基础功能，文生图方面OmniGen2的整体表现中规中矩、无可厚非，更擅长偏实景类生图，对于需要想象力的内容，整体表现还是略显“塑料感”。

因此，OmniGen2比较适合对图片细节要求不算太高的用户场景，比如文章配图等。

（2）中等难度：局部调整

市面上的主流AI生图软件，如果一次性抽卡的成果物达不到要求，往往无法进行局部的修改，更不支持自主选择原始图片的“修片”。因此，支持背景更换、表情修改、动作调整等功能的OmniGen2，在这一细分场景自然更胜一筹。

首先，我们指示OmniGen2基于左图主体人物不变，将背景更换为雪山。可以看到，除了部分细节略显塑料（比如雪山山脉的走势有些生硬，人物的右手放大后有些幻觉感）之外，图片能够做到整体可用。背景更换场景，OmniGen2算是过关。

接下来是表情修改场景。我们使用系统自带的sample图片进行测试，看到生成图片很好地保留了人物的发色、胡子、背景图片的细节不变。（注：生成图片尺寸与原图一致，本文考虑图片观看效果，所以仅截取了部分区域，下同。）

再看看动作调整。这次使用非常口语化的英文提示词“Raise his hand”，2分钟后可以看到，生成图片效果不错，手已经举起来了，并且没有违和感，手部细节也做到了零幻觉。

（3）高级难度：排列重组

再来测试一下物体增删、颜色修改、元素组合等HARD模式下，OmniGen2的实际表现。

物体增删方面，通过提示词，要求AI去掉左侧穿红色外套的人。从成片来看，勉强能够达到效果。这里也有一个小tips：原始图片的清晰度非常影响生成质量，这里上传的原始图片清晰度不高，因此生成图片有点糊化。

颜色修改方面，OmniGen2的表现就显得有些魔幻。被要求把画面中的鱼改成蓝色，虽然说确实从字面上完成了任务，但是毫无活人感，可以说直接扑街。

另外就是此前网上吹爆的多主体合影功能，也不得不说OmniGen2主打一个“已读乱回”，虽然勉为其难识别出了图1是长颈鹿、图2是大象（背影），但是合成图片首先在比例上就非常错误，同时充满塑料感。

OmniGen2也有进阶设置区，除了AppMall聊过好多次的负面提示词（不希望AI出现的效果或元素）和图片尺寸设置之外，解读下其他参数的含义：

Text Guidance Scale（文本引导强度）：值为5 ，数值越高，生成图像越严格遵循文本 prompt 描述，过低可能让画面偏离文字设定，过高易让画面细节生硬。

Image Guidance Scale（图像引导强度，基于参考图生成时生效）：设为2 ，影响参考图对生成结果的约束程度，数值大，参考图特征在输出中越明显。

CFG Range Start & End（CFG 范围）：Start为 0、End为 1 ，限定模型在生成时参考文本 prompt 的强度范围，影响画面创意与文本契合度的权衡。

Scheduler（调度器）：不同调度器（如 euler、DDIM 等）会让生成过程、画面效果有差异，euler 相对计算快、效果稳定。

Inference Steps（推理步数）：设为50 ，指模型去噪迭代次数，步数多，画面细节、质量理论上越好，但生成时间也越长，需在效果和速度间找平衡。

Number of Images per Prompt：设为1 ，即每次按 prompt 生成 1 张图，可调整生成多张对比选。

Seed（随机种子）：为 0 时，每次生成随机；设固定值（如 2147483647 ），能复现之前相同参数的生成结果，方便调试、保留特定风格。

Max_input_image_side_length & max_pixels（输入限制）：限制输入和输出图像的最大像素，避免因画面过大超出硬件、模型承载，保证生成稳定。

OmniGen2试用tips总结

（1）整体来看，更适合对生成图片70-80分预期的普通场景，如文章配图。复杂场景的胜任度并不是很好。

（2）参考图越清晰，生成图像的质量越好。

（3）支持中英双语提示词，但是对英文的理解要优于中文，因此对生成图像质量有高要求，最好使用英文。

（4）改稿功能可以加大分，尤其适合ps等修图软件水平一般的普通用户。

还在等什么？快来appmall.ai，自己解锁它的更多隐藏功能吧~