近日,苹果研究团队推出了最新的多模态 AI 模型 UniGen1.5,标志着图像处理技术的一次重要突破。该模型不仅能够理解图像,还能生成和编辑图像,这三大功能被成功整合在一个系统中,显著提升了工作效率。

与传统方法不同,UniGen1.5采用了统一框架,能够同时完成图像理解、生成和编辑。研究人员指出,这种集成的设计使得模型在生成图像时,可以充分利用其强大的图像理解能力,从而提供更高质量的视觉输出。

images.png

在图像编辑方面,UniGen1.5创新性地引入了 “编辑指令对齐” 技术。该技术通过要求模型首先根据原图和指令生成详细的文本描述来捕捉用户的编辑意图,而不是直接修改图像。这种 “先想后画” 的方法有效提高了模型对复杂修改请求的理解和执行准确性。

此外,UniGen1.5在强化学习方面也取得了显著进展。研究团队设计了一种统一的奖励系统,能够同时应用于图像生成和编辑的训练。这种机制克服了编辑任务中质量标准不一致的问题,从而使得模型在处理各种视觉任务时保持高水平的表现。

在多项行业标准测试中,UniGen1.5展现出了强劲的竞争力。在 GenEval 和 DPG-Bench 测试中,该模型分别取得了0.89和86.83的高分,远超 BAGEL 和 BLIP3o 等其他热门模型。在专门的图像编辑测试 ImgEdit 中,UniGen1.5的得分为4.31,不仅超越了开源模型 OminiGen2,还与一些专有闭源模型如 GPT-Image-1表现相当。

尽管 UniGen1.5表现出色,但研究人员也意识到该模型在某些方面仍有改进空间。例如,模型在生成图像中的文字时容易出现错误,此外,在特定编辑场景中,模型可能会导致主体特征的漂移,例如动物的毛发纹理和颜色偏差。未来,苹果团队将继续致力于优化这些问题。

论文:https://arxiv.org/abs/2511.14760

划重点:

🌟 UniGen1.5是苹果最新推出的多模态 AI 模型,集成了图像理解、生成和编辑功能。

🛠️ 该模型通过 “编辑指令对齐” 技术提高了图像编辑的准确性,有效捕捉用户意图。

📊 在行业测试中,UniGen1.5的表现显著优于其他热门模型,显示出强大的竞争力。