Luma AI 发布 Uni-1：自回归架构同步生成文本与图像

Uni-1 正式发布：Luma 搞出了一款不一样的图像生成模型

3月23日，Luma Labs 正式推出图像生成模型 Uni-1，这是他们基于全新“Unified Intelligence”架构打造的第一款公开产品。和市面上大多数模型不同，Uni-1 不靠扩散模型，也不分“写提示词”和“画图”两个阶段——它像人一样，一边想一边画，一步到位。

官网已开放免费试用，任何人都能直接上手。API 价格也同步公开，企业用户很快就能接入。发布不到一天，相关话题在 X 平台就冲上热搜，浏览量突破 230 万。不少人说：“这玩意儿，真不像AI画的。”

不再分两步走：从“想完再画”到“边想边画”

现在的主流模型，比如 Midjourney 或 DALL·E，都是先用语言模型理解你的描述，再交给另一个专门的图像模型去生成。这就像让两个人合作：一个负责构思，一个负责动手。但中间总会有信息丢失——你明明说“穿红色风衣、背光站着”，结果画出来风衣是蓝色的，光的方向也对不上。

Uni-1 的做法完全不同。它把文字和图像变成一串连续的“token”，像读一本书一样，从左到右一步步生成。你输入一句“画一张金门大桥信息图”，它不是先想结构、再画图，而是同时在脑子里规划布局、标注数据、渲染光影——整个过程你能实时看到它“思考”的轨迹：先画桥墩，再写“1711 Meters”，然后加阴影、加比例尺。

Luma 的 CEO Amit Jain 曾在苹果参与 Vision Pro 的核心工程，他很清楚：真正好用的工具，不该让用户在多个界面之间来回切换。Uni-1 就是冲着“少点套路，多点直接”来的。

参考图控制，稳得离谱

如果你要画一个特定人物，但又想换风格——比如把真人照片变成浮世绘，或者让卡通角色穿上西装——大多数模型要么认不出人，要么把脸画歪。

Uni-1 支持单张甚至多张参考图输入。实测中，用户上传了三张不同角度的同一张人脸，模型不仅准确保留了五官特征，连发型、痣的位置都一模一样，只是风格从写实变成了水彩插画。官方测试显示，这种“多图引导”模式在角色一致性上远超同类产品。

它还能识别 76 种视觉风格：从日本浮世绘、赛博朋克、油画笔触，到新闻摄影、儿童插画、信息图表，都能一键切换。你不用写“请用梵高风格”，直接说“像梵高画的”，它就懂。

不只是好看，它还会“推理”

在 RISEBench 空间推理测试中，Uni-1 得分 0.58，比 Google 的 Nano Banana 2 和 OpenAI 的 GPT Image 都高。什么意思？简单说：它更懂“东西该怎么放”。

比如你让它画“一张包含三张桌子、一台咖啡机和一盏台灯的咖啡馆平面图”，它不会把咖啡机画在墙上，也不会让台灯悬在半空。它知道家具该放在地上，灯要照在桌上，人走动的通道得留出来。

在物体检测 ODinW-13 测试中，它的 mAP 得分 46.2，几乎和 Google Gemini 3 Pro 打平——这意味着它能精准识别画面里每一个物体，哪怕只有一小块。

更惊人的是人类偏好测试：在“整体偏好”、“风格控制”和“参考图生成”三项中，Uni-1 全部排名第一。文生图单项第二，输的只是速度——不是质量。

价格：比竞品便宜，还更透明

Uni-1 的 API 定价清晰明了：

输入文字：$0.50 / 百万 token
输入图像：$1.20 / 百万 token
输出文字+推理过程：$3.00 / 百万 token
输出图像：$45.45 / 百万 token

换算成单张图：一张 2048px 的文生图，约 9 分钱；加一张参考图，10 分钱；用 8 张参考图控制风格，也不过 11 分钱。

VentureBeat 实测发现，在企业级 2K 分辨率场景下，Uni-1 的成本比 Google Nano Banana 2 低 10% 到 30%。更重要的是——你付的钱，清清楚楚是“生成图像”的费用，没有隐藏的算力包、没有按调用次数收费的陷阱。

从视频到图像，Luma 的野心才刚起步

Luma 之前靠 Dream Machine（Ray3）在视频生成圈火过一把，靠的是真实感极强的动态效果。今年 3 月初，他们推出了 Luma Agents，一个能自动规划创意流程的代理系统。Uni-1 是这个系统第一次落地到静态图像领域。

团队没说什么时候上视频版，但所有人都在等。有开发者在 Reddit 上猜测：“如果 Uni-1 能让图像‘思考’，那视频版可能就是让画面‘讲故事’。”

目前，试用入口已开放：https://lumalabs.ai/uni-1

没有注册门槛，不需要排队，直接输入你的想法，看看它怎么“边想边画”。你可能会发现——它不像AI，更像一个懂你想法的设计师。

CB科技站