苹果发布LiTo大模型：单图秒生成高精度3D模型，光影还原提升37%

一张照片，生成真实3D物体：苹果新模型LiTo如何改变3D创作

你有没有想过，只用手机拍一张照片，就能立刻生成一个能从任何角度查看、有真实光影效果的3D模型？苹果的AI研究团队最近推出的LiTo（Surface Light Field Tokenization）技术，让这件事变得可行。

过去，想要制作一个高质量的3D物体，通常需要专业设备扫描，或者用多张照片从不同角度拼接重建，耗时数小时甚至数天。而LiTo只需要一张普通照片——无论是手机拍的咖啡杯、玩具车，还是你自己的手表——就能在几秒内输出一个具备真实镜面反光、柔和阴影和精确菲涅尔效应的3D模型。

LiTo的关键，不在于“想象”物体长什么样，而在于它学会了“理解”光是怎么在物体表面反射、折射、衰减的。传统模型往往只关注形状，结果生成的模型在不同角度下光影混乱——比如一个金属球，从左边看是亮的，从右边看却还是亮的，完全不符合物理规律。

LiTo用了一种全新的方式：把物体表面的光场信息——也就是每个点在不同光照方向下的反射表现——压缩成一组数学向量。这组向量不是简单的像素集合，而是包含了几何结构、材质属性和光线交互的完整“物理密码”。

系统分为两部分：编码器负责从一张图里提取这些“密码”，解码器则用这些密码反向还原出完整的3D模型。它能准确还原出玻璃杯边缘的高光、手表表壳上的镜面反射，甚至塑料玩具上那种微妙的“半透明感”——这些细节，过去只有专业渲染软件才能做到。

团队用超过5000个真实物体的3D数据训练LiTo，涵盖金属、玻璃、陶瓷、布料、木材等多种材质。测试中，它在“多视角光影一致性”这一关键指标上，比目前行业公认最强的TRELLIS模型高出37%——这意味着，你从左、右、上、下四个角度查看同一个模型，光影变化完全自然，没有突兀的“翻转”或“错位”。

更重要的是，LiTo彻底解决了过去3D生成模型最头疼的问题：方向混乱。以前的模型经常把物体“倒着放”或“侧着摆”，需要人工调整。LiTo能自动识别相机拍摄角度，确保生成的3D物体朝向与原图一致——你拍的是正面，它就不会给你一个侧面的模型。

这项技术的意义，远不止于“能生成3D模型”。对于苹果正在推进的Vision Pro、AR眼镜，以及未来可能的轻量化空间计算设备来说，内容生态是最大的瓶颈。

现在，用户想在AR中放一个3D模型？要么下载现成的资源库，要么用专业软件建模。而有了LiTo，你可以随手拍下桌上的钥匙、家里的花瓶、甚至朋友戴的耳机，一键变成可交互的AR对象。不需要建模经验，不需要昂贵设备，甚至不需要知道什么是“法线贴图”或“PBR材质”。

有开发者已经开始测试LiTo在Apple Vision Pro上的应用：用iPhone拍下客厅的台灯，立刻在空间中还原出一个能投射真实阴影的虚拟灯源；拍下一本精装书，就能在虚拟书架上“放”一本一模一样的，连封面烫金的反光都对得上。

这不是科幻。苹果已经悄悄把LiTo集成进部分内部开发工具，并在有限范围内向内容创作者开放测试。未来，它很可能成为iOS和Vision OS系统内置的“3D拍照”功能——就像现在的实况照片、人像模式一样，悄无声息地改变我们与数字世界互动的方式。