最新消息:关注人工智能 AI赋能新媒体运营

商汤开源SenseNova U1:首款多模态原生统一架构模型

科技资讯 admin 浏览

商汤开源日日新 SenseNova U1:一个能“看懂世界”的AI模型

6月28日,商汤科技正式发布并开源了名为 SenseNova U1 的新一代AI模型。这不是又一个“参数更大、速度更快”的模型,而是一个真正把“看”和“想”融在一起的系统——它不再像过去那样,用两个模块分别处理图像和文字,而是像人一样,一眼扫过去,就能理解画面里发生了什么、能推断出下一步该怎么做。

这个能力的背后,是商汤自研的 NEO-unify 架构。传统模型常常把图片先“压缩”成一堆特征,再和文字拼在一起分析,结果常常“看得见但看不懂”。U1直接扔掉了这套老办法,不再依赖单独的视觉编码器或图像压缩器,而是让图像像素和文字词句在每一层计算中自然交融。简单说:你给它一张厨房乱糟糟的图片,它不光能认出锅、碗、刀,还能判断“有人刚做完饭没洗碗”,甚至能推理“如果现在去拿刀,可能会被绊到”。

这种能力在真实场景中有多强?测试中,U1在空间推理、多步任务规划、视觉问答等任务上,准确率显著超过同类模型。比如,它能根据一张杂乱的货架照片,准确说出“左边第三排的牛奶快过期了,右边的饼干被挡住了,拿起来需要先移开盒子”——这种细节,过去只有人工标注才能做到。

不只是AI,更是机器人的“大脑”

商汤没打算只让这个模型待在服务器里跑测试。他们明确说,U1的下一个战场是机器人。未来的家用机器人、仓储搬运机器人,甚至服务型机器人,都可能搭载这个模型作为“核心大脑”。

想象一下:你对机器人说“把茶几上的水杯拿过来”,它不用先识别杯子、再定位茶几、再规划路径、再执行动作——这一整套流程,U1在一个模型里全搞定了。它能实时看、实时想、实时动,不需要多个模块来回传数据,反应更快、出错更少。这在家庭、医院、工厂等复杂环境中,意义重大。

目前,商汤已开放U1的部分权重和训练代码,开发者可免费下载使用。官方还同步上线了模型使用指南、场景示例和API接口文档,支持在本地部署。如果你正在做视觉交互、机器人控制、智能客服或AR/VR应用,这个模型或许能帮你省下几个月的开发时间。

为什么这次不一样?

过去几年,AI模型越来越“大”,但越来越“笨”。它们能写诗、能画画、能聊天,但一遇到真实世界的小变动——比如换个灯光、换个角度、加个障碍物——就容易懵。U1的突破在于:它不是靠“背”海量数据变聪明,而是学会了“理解结构”。

它能看懂一个房间的布局,理解物体之间的物理关系,甚至预测“如果我推一下这个箱子,旁边的东西会不会倒”。这不是魔法,是架构的重构。就像从“用地图导航”升级到“自己认路”。

这次开源,不只是技术开放,更是一次行业信号:AI正在从“炫技”走向“实用”。如果你关心机器人怎么真正走进生活,或者想做一个能看懂现实世界的AI应用,U1,可能是你今年最该试试的工具之一。

项目地址:https://github.com/SenseTime/SenseNova-U1