面对传统AI图像编辑工具长期存在的一致性与可控性难题,阿里巴巴最新的Qwen-Image-Layered模型给出了一个革命性的答案——将图像拆解为独立图层。
北京时间2025年12月18日,阿里巴巴通义千问团队发布了一款全新的分层图像编辑模型Qwen-Image-Layered。
这款模型能够将单张RGB图像分解为多个语义解耦的RGBA图层,让每个图层都能够像专业设计软件一样被独立操作而不影响其他内容。
01 技术突破:从像素纠缠到图层解耦
图像生成模型长期面临编辑一致性的难题。AI进行图像编辑时,常常会出现“主体偏移”或“语义漂移”问题——明明只想修改图像的某个部分,却导致整张画面发生不可预料的改变。
问题的根源在于传统光栅图像本身具有的“纠缠性”。所有视觉内容被融合在单一画布上,修改一个区域必然会影响相邻内容。
Qwen-Image-Layered提出了一种根本性解决方案。该模型通过端到端的扩散模型架构,能够智能地将单张RGB图像分解为多个语义独立的RGBA图层。
“这就像是给任何图像自动生成一套完整的Photoshop图层。”一位技术观察者评价道。在实际应用中,用户可以单独选中某个图层进行编辑,而其余内容保持原封不动。

02 核心创新:三大技术组件构建图层化能力
为实现可变长度图像分解,Qwen-Image-Layered引入了三个关键技术组件,构成了模型的技术核心。
RGBA-VAE组件统一了RGB与RGBA图像的潜在表示空间,使模型能够同时处理单层和多层图像数据。可变图层数分解MMDiT架构则赋予了模型灵活分解图像的能力,可以根据图像复杂度输出数量不等的图层。
多阶段训练策略将预训练的图像生成模型逐步适配为多图层图像分解器,这一过程涉及复杂的参数优化和架构调整。
值得一提的是,高质量多图层训练数据的稀缺曾是制约此类模型发展的瓶颈。阿里巴巴的研究团队为此专门构建了一套从Photoshop源文件中提取并标注多图层图像的处理流程,有效解决了训练数据不足的问题。
03 实际应用:赋能专业设计,降低创作门槛
Qwen-Image-Layered的技术突破在实际应用中展现出广泛潜力。对于那些需要反复调整细节的专业设计场景,分层编辑能力意味着效率的极大提升。
在工业设计领域,设计师可以轻松实现颜色变换、视角调整、局部修改和材质替换等操作。在多图像融合场景中,模型能高效地将多张图片中的人物无缝融合为一张合照,同时保持人物特征的一致性。
通义千问系列模型已在多个基准测试中表现突出。在用于通用图像生成的GenEval、DPG和OneIG-Bench,以及用于图像编辑的GEdit、ImgEdit和GSO等多个测试中,Qwen-Image系列均取得了先进性能。
对于普通用户而言,这意味着无需学习复杂的设计软件,就能实现专业级的图像编辑效果。据此前报道,千问APP上的图像编辑功能已经支持无限次免费使用,大幅降低了高质量图像编辑的技术门槛。
04 技术演进:阿里视觉生成模型的全面布局
Qwen-Image-Layered的发布是阿里巴巴在视觉生成领域持续投入的延续。今年8月,阿里开源了首个图像生成基础模型Qwen-Image,该200亿参数的模型在复杂文本渲染和精准图像编辑方面表现卓越。
12月初,阿里巴巴刚刚对图片生成及编辑模型进行了重大升级,新模型在维持编辑一致性、多视角转换和多图像融合等方面取得突破。截至发布,Qwen-Image系列模型总下载量已突破300万次,成为全球AI社区最热门的开源视觉基础模型之一。
在专业应用方面,阿里巴巴同样动作频频。12月16日,阿里发布了新一代万相2.6系列模型,针对专业影视制作和图像创作场景做了全面升级,支持角色扮演与专业分镜控制,被誉为“全球功能最全的视频生成模型”。
这些技术进展共同构成了阿里在生成式AI视觉领域的完整布局,从基础图像生成到专业级分层编辑,再到高级视频创作,形成了覆盖全创作流程的技术矩阵。
目前,Qwen-Image系列模型已在全球最大的AI开源社区HuggingFace的“图生图”榜单前15名中占据13席。
开源社区已经基于Qwen-Image模型开发出各种创新版本,例如镜头控制LoRA效果,可实现图片的多角度重新编辑,持续占据HuggingFace演示空间榜单首位。
该模型的代码和模型已公开发布在GitHub上,任何开发者均可访问和下载。

关注 “悠AI” 更多干货技巧行业动态
