苹果发布“三合一”AI视觉模型，UniGen 1.5实现理解、生成与编辑三位一体

一只猫在脑海中先被想象成拥有星空纹理的模样，然后由AI精准地绘制出来——苹果最新发布的多模态模型正在将这种“先构思，后创作”的智能变为现实。

苹果研究团队近日正式发布了其新一代多模态AI模型 UniGen 1.5，该模型成功将图像理解、生成与编辑三大核心功能整合于一个统一的系统之中。

与以往需要不同模型处理不同任务的传统方案相比，这项突破意味着单一模型即可完成从“看懂”图片到“创作”或“修改”图片的全流程。

UniGen 1.5的核心突破在于其统一的技术框架。传统上，图像的认知、创造与修饰分别由不同的AI系统负责，而UniGen 1.5通过一个集成设计，使模型能同时驾驭这三项任务。

研究人员指出，这种设计让模型在生成图像时，能够充分利用其强大的图像理解能力，从而产生更高质量的视觉输出。

在备受关注的图像编辑能力上，苹果团队首创了一项名为 “编辑指令对齐” 的关键技术。

面对用户复杂的修改指令，模型并非直接动手修改像素，而是首先根据原始图像和文本指令，生成对目标图像的详细文本描述。

这个过程如同画家在落笔前于心中构思整幅画面，迫使模型深度内化用户的编辑意图，从而大幅提升了对精细、复杂修改请求执行的准确性。

在衡量模型能力的多项行业标准测试中，UniGen 1.5交出了一份颇具竞争力的成绩单。

在评估生成图像与文本对齐度的GenEval测试中，UniGen 1.5获得了0.89的高分；在另一项DPG-Bench测试中，其得分达到86.83，显著超越了BAGEL、BLIP3o等近期热门的同类模型。

在专注图像编辑能力的ImgEdit基准测试中，UniGen 1.5的综合得分为4.31分。这一成绩不仅超过了OminiGen2等开源模型，更是与GPT-Image-1等专有闭源模型的表现不相上下。

为了确保模型在处理各类视觉任务时都能保持稳定、高水平的表现，研究团队还在强化学习层面进行了创新。

他们设计了一套统一的奖励系统，可同时应用于图像生成和编辑的训练过程。这一机制有效解决了以往编辑任务中质量标准不一致的难题，增强了系统的整体可靠性。

尽管整体表现优异，苹果的研究人员也坦率地指出了UniGen 1.5现阶段存在的局限性。目前，模型在生成图像内的文字时仍然容易出现错误，可能出现多字、少字或字形错误的情况。

此外，在部分特定的编辑场景下，模型偶尔会导致主体特征的“漂移”。例如，在修改动物图片时，其毛发纹理或颜色可能出现非预期的偏差。

这些问题被归因于离散去标记器在控制细粒度结构方面的不足。苹果团队已明确表示，优化这些不足之处将是他们后续工作的重点。

UniGen 1.5的发布，标志着苹果在生成式AI，特别是多模态AI领域迈出了坚实且关键的一步。它将过去割裂的视觉能力整合，向业界展示了一条高效且协同的技术路径。

其表现证明了统一模型在处理关联视觉任务上的潜力，这不仅可能降低未来AI应用开发的复杂性和成本，也为图像处理、创意设计、媒体制作等广泛领域带来了新的想象空间。

随着模型在理解和执行复杂创意指令上的能力不断进化，它有望成为从专业创作者到普通用户进行视觉表达和沟通的强大辅助工具。

在多项基准测试中，UniGen 1.5的编辑能力得分已与顶尖闭源模型GPT-Image-1持平。其统一的奖励机制解决了图像编辑中长期存在的质量标准不一致难题，使AI在修改图片时能像人类一样理解何为“恰到好处”。

当用户给出“给这只猫加上星空般的毛发”的指令时，UniGen 1.5会先在逻辑层面构建星空纹理与猫科动物形体的结合方案，再驱动生成引擎落笔实现。这种认知与创造的无缝衔接，正在重新定义人机协作的边界。

关注 “悠AI” 更多干货技巧行业动态

文章版权归作者所有，未经允许请勿转载。

没有相关内容!

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...