NVIDIA开源Lyra 2.0：单图生成可行走3D世界，破解长视频空间遗忘与时间漂移

NVIDIA 推出 Lyra 2.0：从一张图，生成可自由探索的完整3D世界

NVIDIA Research 刚刚在 Hugging Face 正式开源了 Lyra 2.0 —— 一个能让你从一张照片，自动生成完整、可交互、可导出的3D场景的工具。不需要建模软件，不需要手动雕刻细节，你上传一张图，设定相机路径，它就能帮你生成一段连贯的视频，再自动转换成能在 Unity、Unreal Engine 或 Isaac Sim 里直接使用的3D资产。

这不只是“AI画图”升级了。它真正解决了长期困扰3D生成的两个老大难问题：

空间遗忘：你让相机绕着房子转一圈，回来再看，墙上的窗户怎么没了？
时间漂移：一开始是红车，转个身再看，车变成蓝色了，还歪着停在马路中间。

Lyra 2.0 没有试图让AI“记住”每一寸细节，而是聪明地分了两步走：

它用一个轻量的3D几何追踪器，记住“哪里有什么”，但不负责画图；
真正的画面渲染，交给它训练过的强大生成模型——只在该出现的地方，补上合理的纹理和光影。

更狠的是，它在训练时故意让模型“看自己犯错的版本”——比如故意加点模糊、抖动、位置偏移，逼它学会自我修正。结果就是：你能让相机走50米远，场景依然稳得像真拍的。

怎么用？三步，从照片到可玩的3D世界

整个流程简单到像发朋友圈：

上传一张图：可以是随手拍的房间、街角、废墟，甚至手绘草图。加个文字提示（比如“黄昏、雨天”）效果更好。
在浏览器里拖动相机路径：像在游戏里操控视角一样，你想从门口走进去，绕到后院，再飞到屋顶——直接用鼠标拉出轨迹。
等它生成，导出就完事：系统自动生成一段10秒以上的连贯视频，然后一键转成点云、高斯溅射（3D Gaussian Splatting）或网格模型，直接导出为 .glb、.fbx 格式。

导出后，你可以：

拖进 Unity，加个角色跑一跑；
导入 Unreal，做一段过场动画；
扔进 NVIDIA Isaac Sim，让机器人在你生成的客厅里练导航。

实测中，生成的场景能稳定支持 30–50 米范围的自由探索。你走回头路，门还在原地；你绕到背面，屋顶的瓦片纹理和正面一致；你让相机突然下坠，地面不会突然“消失”或“穿模”。

开源，免费，商用无压力

Lyra 2.0 完全开源，模型权重和训练代码都已上线：

模型地址：https://huggingface.co/nvidia/Lyra-2.0
代码仓库：https://github.com/nv-tlabs/lyra
论文：https://huggingface.co/papers/2604.13036

采用 Apache 2.0 许可证——你拿它做游戏、做VR体验、做机器人仿真，甚至卖产品，都不用交钱、不用署名，合法合规。

底层用了 NVIDIA 自研的 Wan-14B 视频生成模型，搭配 Depth Anything V3 做深度估计，保证生成的几何结构真实可靠。不是“看起来像”，是“真能用”。

谁最该用它？

如果你是：

独立游戏开发者：手绘一张关卡草图，20分钟生成可跑的3D地图，省下几周建模时间。
VR/AR 内容创作者：不用买昂贵的扫描设备，用手机拍张照，就能还原现实空间做沉浸体验。
机器人工程师：快速搭建仿真环境，训练机器人在真实住宅、仓库、街道中避障、导航。
影视预演团队：用概念图快速生成可漫游的场景，供导演和摄影师提前走位。

去年我们还在用 Blender 手动建一个房间，现在你只需要一张图 + 一分钟拖动鼠标。

这不是Demo，是生产力工具

过去很多“AI生成3D”项目，只能做几秒的炫技视频，导出的模型不是歪的、就是空心的、根本没法用。Lyra 2.0 是第一个真正把“生成”和“可用”打通的系统。

它不追求“最逼真”，而是追求“最可靠”——你敢把它放进你的工作流，因为它不会在关键时刻掉链子。

NVIDIA 没有藏起来，而是直接开源，说明他们相信：真正的技术突破，不是靠闭门造车，而是靠让更多人用起来。

现在，你就可以去试试。上传一张图，看看你的客厅，能不能在电脑里“活”起来。

实时渲染空间记忆 3D生成 Lyra2.0

CB科技站