“神秘模型”终于亮相:生数科技的MotuBrain,让机器人真正“看懂”世界
过去三周,业内流传着一个“看不见的冠军”——一个在两大权威机器人测试中悄然登顶的模型,没人知道它来自哪家公司,却在技术圈里被反复讨论。直到最近,生数科技正式宣布:那个让无数人猜疑的“神秘模型”,就是他们刚刚发布的MotuBrain。
这不是一次简单的技术演示,而是一次实打实的突破。在WorldArena(物理世界理解)和RoboTwin2.0(动作执行)这两项被业界视为“黄金标准”的测试中,MotuBrain双双刷新纪录。尤其在模拟真实环境的复杂干扰测试中——比如突然移走物体、地面打滑、灯光闪烁——它是唯一一个平均得分突破95分的模型。其他模型动辄掉到70分以下,它却稳如老狗。

不靠“预设剧本”,它像人一样边看边做
传统机器人靠的是“先想好再动手”:先规划好每一步动作,然后机械执行。但现实世界哪有那么多预设?杯子被挡住了、勺子没舀到菜、毛巾滑落了——这些情况,旧系统要么卡住,要么乱来。
MotuBrain不一样。它不靠“记忆动作”,而是像人一样——眼睛看到什么,脑子立刻判断,手跟着动。你不用告诉它“先抓勺子,再伸进锅里,再抬起来”,它自己会看:勺子是空的?那就再捞一次。汤太烫?它会稍等半秒。旁边有人伸手?它会主动避让。
在一段公开演示视频里,一台机器人在火锅桌前“吃饭”:它能分辨出哪些是刚捞上来的牛肉、哪些是反复翻腾的豆腐,甚至能根据汤面波动判断是否该停手。这不是程序写出来的“智能”,是它自己“看”出来的判断。

一个大脑,能管各种机器人
很多人以为,机器人越复杂,越需要定制系统。但MotuBrain打破了这个逻辑——它不挑机器人“身体”。
无论是四足机器人、双臂协作臂,还是带轮子的移动平台,只要接入它的系统,它都能立刻上手。在一段演示中,同一个模型,先后控制了不同结构的机器人完成插花、调酒、整理沙发、收碗叠衣——连续十几个动作,一气呵成,没有停顿,也没有人工干预。
更惊人的是,任务越复杂、种类越多,它的表现反而越好。不是因为“练得更多”,而是因为它在学“物理世界的底层规则”:重力怎么影响物体、摩擦力如何改变动作、物体之间的空间关系如何变化。这就像一个人学会了“怎么拿东西”,而不是“记住拿杯子的动作”。
业内有团队做过对比:传统模型在10个任务后准确率开始下滑,MotuBrain在第20个任务时,成功率还在上升。
生数科技的“双轨打法”:一边造虚拟世界,一边练真实机器人
为什么MotuBrain能这么强?答案藏在生数科技的底牌里。
这家公司早年靠视频生成模型Vidu出圈,能用一句话生成几秒高清视频。但没人想到,他们没把技术用在短视频,而是反向推导:既然能生成逼真的虚拟世界,那能不能用它来训练机器人?
于是,他们开发出全球首个“U-ViT”架构,让虚拟世界和真实世界共享一套底层逻辑。Vidu负责生成海量的虚拟场景——比如一百万种不同的厨房布局、随机掉落的杯子、不同温度的液体——MotuBrain就在这些场景里“练功”。练好了,再搬到真实机器人上,效果惊人。
这就像让飞行员先在模拟器里飞一万小时,再开真飞机。成本低、迭代快、安全系数高。而大多数公司还在用真实机器人一个一个试错,效率差了十倍不止。
合作已落地,机器人正在走进真实场景
MotuBrain不是实验室里的玩具。生数科技已经和无界动力、星尘智能等多家机器人厂商达成合作,首批搭载该系统的设备正在工厂、养老院和高端家居场景中试运行。
在一家上海的养老机构,机器人能独立完成给老人递水、整理床单、识别跌倒风险;在一家智能厨房样板间,它能根据菜谱自动备料、控制火候、清洗餐具——全程无需人工介入。
这不是科幻。这是正在发生的事。
过去,机器人是“执行命令的工具”;现在,MotuBrain让机器人成了“能看、能想、能适应”的伙伴。而生数科技,正悄悄站在这场变革的中心。