AI 图片编辑迎来革命:通义千问发布可拆解图层模型 Qwen-Image-Layered
当 AI 生图已经从“能不能画”变成“能不能改”的时代,用户不再满足于一次生成、随机结果、反复重试的低效流程。真正的需求,是像用 Photoshop 一样——想改哪,就改哪;改多少次,都能稳住原貌;删掉一个路人,不伤背景;换件衣服,光影不变;改文字,不歪不糊。
今天,通义千问团队正式推出全新图像生成与编辑模型:**Qwen-Image-Layered**。这不是又一个“提示词生成图”的升级版,而是一次底层逻辑的重构——它不再把图片当作“一坨像素”,而是像专业设计软件那样,自动把图像拆解成多个可独立编辑的**语义图层**。

告别“全图重画”和“掩码失灵”,AI 编辑终于有了“精准手术刀”
过去两年,主流 AI 图像编辑无非两种方式:
- 全局重生成:你写一句“把女孩的裙子换成红色”,结果连她的头发、背景、灯光全变了——你想要的只是裙子,AI 却给你重画了整张图。
- 掩码局部编辑:圈出区域再改,看似精准,但一旦遇到发丝、半透明物体、复杂边缘,AI 就开始“脑补”,留下明显修补痕迹,甚至把远处的树变成模糊的色块。
这两种方式,本质上都是“猜”。你改一点,AI 重新推理整张图,结果不可控,迭代成本极高。
而 Qwen-Image-Layered 的思路完全不同:它**先理解,再编辑**。
当你上传一张图片,模型会在毫秒级内,自动识别并分离出多个语义图层——人物、背景、文字、装饰物、光影层……每一层都是独立的 RGBA 图层(含透明通道),就像 Photoshop 里的图层面板,但这一切,**无需手动操作,AI 自动完成**。
技术突破:从“生成图像”到“理解图像结构”
要实现图层化编辑,技术难点远超想象。Qwen-Image-Layered 通过三大核心创新,首次在开放域图像中实现了稳定、高精度的图层拆解:
- RGBA-VAE 潜空间编码:传统模型只能处理 RGB 图像,无法处理透明度。Qwen 首创将 RGB 与 RGBA 图层映射到统一潜空间,让模型能精准识别“哪些区域是半透明的发丝”“哪些是背景虚化”,边缘过渡自然,无锯齿、无拖影。
- VLD-MMDiT 架构:突破图层数量限制。以往模型最多处理 3–5 层,Qwen-Image-Layered 支持**任意数量图层**(实测可稳定处理 12 层以上),且图层之间通过多头注意力机制动态协同,确保光影、透视、遮挡关系一致性。
- 多阶段进化训练:模型先学生成单图 → 再学生成多图层 → 最后学会“反向拆解”任意真实图片。这不是“模仿编辑”,而是真正**理解了图像的组成逻辑**,具备了类似人类设计师的“结构感知能力”。

真实场景体验:你想要的编辑,现在都能一步到位
拆解完成后,编辑变得像操作 PPT 一样简单:
- 只想换衣服?选中人物层,输入“换成黑色皮夹克”,其他部分纹丝不动。
- 想改海报文字?直接选中文字层,输入新内容,字体、字号、阴影自动匹配原风格。
- 想删掉背景里的路人?点选图层,一键删除,AI 自动智能填充,不留修补痕迹。
- 想把人物放大?拖拽缩放,不拉伸、不扭曲,连手指关节的透视都保持自然。
- 想加一束光?新建一个“光影层”,手绘光晕,AI 自动融合到场景中,不突兀。
更厉害的是:**图层可递归拆分**。比如你选中“女孩”这一层,它还能被进一步拆成“头发”“脸”“上衣”“手臂”四个子图层,实现毫米级精细控制——这在以往的 AI 编辑工具中,根本无法想象。
不只是工具,更是内容创作的生产力跃迁
对设计师、电商运营、自媒体创作者来说,这意味着什么?
- 一张产品图,不用再拍十张不同颜色的版本——AI 一键换色,秒出 20 个方案。
- 短视频封面文字想改?不用重新出图,改图层,30 秒搞定。
- 广告图中模特临时换人?不用重新约拍摄,AI 替换,光影、姿态、肤色自动适配。
- 小红书博主想换背景?选中背景层,输入“换成东京夜景”,立刻生成,无需 PS。
据团队透露,Qwen-Image-Layered 已在阿里妈妈、淘宝详情页、钉钉海报等内部场景中落地,**编辑效率提升 7 倍以上,返工率下降 90%**。
这不是“AI 做图”,而是“AI 做设计”。它让普通人也能拥有专业级图像编辑能力,也让专业创作者从重复劳动中解放出来。
开放体验:免费使用,无需注册
目前,Qwen-Image-Layered 已在 ModelScope 平台全量开放,支持网页端直接上传图片、拖拽编辑、实时预览,**完全免费**,无需登录或积分。
???? 立即体验:https://www.modelscope.cn/studios/Qwen/Qwen-Image-Layered
有人说,AI 会取代设计师。但真正会取代的,是那些只会“点一键生成”的人。而像 Qwen-Image-Layered 这样的工具,正在让真正懂内容、懂审美的人,效率翻倍,创意无界。
PS 还在靠鼠标和快捷键,AI 已经学会“看懂图层”了。这场变革,才刚刚开始。