商汤开源SenseNova U1：首款多模态原生统一架构模型

商汤开源日日新 SenseNova U1：一个能“看懂世界”的AI模型

6月28日，商汤科技正式发布并开源了名为 SenseNova U1 的新一代AI模型。这不是又一个“参数更大、速度更快”的模型，而是一个真正把“看”和“想”融在一起的系统——它不再像过去那样，用两个模块分别处理图像和文字，而是像人一样，一眼扫过去，就能理解画面里发生了什么、能推断出下一步该怎么做。

这个能力的背后，是商汤自研的 NEO-unify 架构。传统模型常常把图片先“压缩”成一堆特征，再和文字拼在一起分析，结果常常“看得见但看不懂”。U1直接扔掉了这套老办法，不再依赖单独的视觉编码器或图像压缩器，而是让图像像素和文字词句在每一层计算中自然交融。简单说：你给它一张厨房乱糟糟的图片，它不光能认出锅、碗、刀，还能判断“有人刚做完饭没洗碗”，甚至能推理“如果现在去拿刀，可能会被绊到”。

这种能力在真实场景中有多强？测试中，U1在空间推理、多步任务规划、视觉问答等任务上，准确率显著超过同类模型。比如，它能根据一张杂乱的货架照片，准确说出“左边第三排的牛奶快过期了，右边的饼干被挡住了，拿起来需要先移开盒子”——这种细节，过去只有人工标注才能做到。

不只是AI，更是机器人的“大脑”

商汤没打算只让这个模型待在服务器里跑测试。他们明确说，U1的下一个战场是机器人。未来的家用机器人、仓储搬运机器人，甚至服务型机器人，都可能搭载这个模型作为“核心大脑”。

想象一下：你对机器人说“把茶几上的水杯拿过来”，它不用先识别杯子、再定位茶几、再规划路径、再执行动作——这一整套流程，U1在一个模型里全搞定了。它能实时看、实时想、实时动，不需要多个模块来回传数据，反应更快、出错更少。这在家庭、医院、工厂等复杂环境中，意义重大。

目前，商汤已开放U1的部分权重和训练代码，开发者可免费下载使用。官方还同步上线了模型使用指南、场景示例和API接口文档，支持在本地部署。如果你正在做视觉交互、机器人控制、智能客服或AR/VR应用，这个模型或许能帮你省下几个月的开发时间。

为什么这次不一样？

过去几年，AI模型越来越“大”，但越来越“笨”。它们能写诗、能画画、能聊天，但一遇到真实世界的小变动——比如换个灯光、换个角度、加个障碍物——就容易懵。U1的突破在于：它不是靠“背”海量数据变聪明，而是学会了“理解结构”。

它能看懂一个房间的布局，理解物体之间的物理关系，甚至预测“如果我推一下这个箱子，旁边的东西会不会倒”。这不是魔法，是架构的重构。就像从“用地图导航”升级到“自己认路”。

这次开源，不只是技术开放，更是一次行业信号：AI正在从“炫技”走向“实用”。如果你关心机器人怎么真正走进生活，或者想做一个能看懂现实世界的AI应用，U1，可能是你今年最该试试的工具之一。

项目地址：https://github.com/SenseTime/SenseNova-U1

CB科技站

商汤开源SenseNova U1：首款多模态原生统一架构模型

商汤开源日日新 SenseNova U1：一个能“看懂世界”的AI模型

不只是AI，更是机器人的“大脑”

为什么这次不一样？

与本文相关的文章