英伟达发布Lyra2.0:一张照片,生成90米真实3D世界
2026年4月16日,英伟达正式推出Lyra2.0——一个能从一张照片自动生成长达90米连续3D环境的系统。它不靠无人机扫描,不依赖激光雷达点云,甚至不需要你拍多张照片。你只需拍一张街角、一间客厅或一条林荫道,它就能“脑补”出前后左右延伸的完整空间,连远处的路灯、拐角的自行车、墙角的垃圾桶都保持几何一致,相机来回穿梭也不会“穿帮”。
这听起来像科幻,但已经实测可用。在英伟达内部的机器人训练平台中,工程师用Lyra2.0生成了整条城市街区,让无人车在AI造的“假路”上跑了上万公里,没有一次因环境突变失控。更关键的是,这套系统和NVIDIA Isaac Sim完全打通——生成的3D场景可以直接导入,变成带物理碰撞、光照反射、材质摩擦的真实仿真环境,机器人训练不再需要去真实世界搭建昂贵的测试场。
为什么它比以前的3D生成强这么多?
过去,AI生成3D环境最大的毛病是“记不住”。你让相机往左走5米,再退回来,结果房子歪了、树不见了,就像梦里回头发现家变了样。Lyra2.0解决了这个“健忘症”:
- 它每生成一帧,就实时记录下场景的精确几何结构,不是像素,是真实的空间坐标。
- 哪怕你反复来回走动十几次,墙角的花盆永远在同一个位置,地砖的纹路不会错位。
更狠的是,训练时工程师故意给模型“喂错数据”——故意让某些帧出现扭曲、缺失、光照突变。结果模型反而学会了“自己修图”。它不再死板地照搬输入,而是能判断:“这棵树的位置不对,应该往左挪0.3米。”
实测对比显示,在图像真实感、相机运动流畅度、场景连贯性三项关键指标上,Lyra2.0全面碾压GEN3C、Yume-1.5等主流模型。而它的“快速版”生成速度比上一代快了13倍——原本要等3分钟的场景,现在10秒就能出图。
真实世界的应用,已经跑起来了
这不是实验室里的Demo。英伟达已经把Lyra2.0交给了几家自动驾驶公司和机器人初创团队:
- 一家国内无人配送公司用它生成了200多个小区的3D地图,训练机器人识别不同楼道的门把手、台阶高度和宠物狗的突然窜出,成本比实地测绘低了90%。
- 波士顿动力的下一代机器人原型,正在Lyra2.0生成的“杂乱仓库”里练习抓取货架上歪斜的纸箱——这些场景,现实中根本不可能按需搭建。
- 就连Meta和Google的AR团队也在悄悄接入,测试能否用手机拍一张客厅,立刻在眼镜里叠加出虚拟家具,还不卡顿、不漂移。
目前它还只能处理静态场景——没法生成流动的水、飘动的窗帘、正在走路的人。但它的核心突破在于:第一次让AI生成的3D世界,能经得起“反复探索”和“物理交互”的考验。这不再是“看起来像”,而是“用起来真”。
未来:机器人训练,不再依赖现实
过去,训练一个能避障的机器人,需要真人带着设备去几十个地方拍、建模、清理数据,耗时数月,成本几十万。现在,工程师打开Lyra2.0,上传一张照片,半小时后,一个可交互、可碰撞、可光照追踪的完整世界就建好了。
这意味着,未来的机器人训练,可能不再需要“去现场”。你只需要拍一张你家车库的照片,就能让机器人学会在你家停车;拍一张超市货架,它就能识别所有商品的摆放规律。
英伟达没说它什么时候会开放给公众,但业内已经传开:下个版本,可能支持动态物体和简单交互。到那时,你拍一张咖啡馆,AI就能生成一个有服务员走动、杯子碰撞、背景音乐的完整空间——机器人,就能在你家客厅里,提前学会如何端咖啡。