腾讯发布专为机器人打造的“大脑”:HY-Embodied-0.5,让机器真懂物理世界
近日,腾讯 Robotics X 实验室联合腾讯混元团队,正式推出全球首个专为实体机器人设计的基础大模型——HY-Embodied-0.5。这不是又一个能聊天、能识图的通用AI,而是真正能“看懂”房间、理解物体重量、判断怎么抓稳杯子、知道茶杯不能堆在易碎品上面的“机器人大脑”。
过去几年,很多AI模型能看图说话、写诗作画,但一放到真实机器人身上就“傻眼”——分不清哪个是桌子腿、哪个是电线,抓东西不是太用力捏碎,就是太轻滑掉。HY-Embodied-0.5 的目标,就是解决这个“眼高手低”的老大难问题。
不是调个参数,是从零重建
这款模型不是在现有大模型基础上“打补丁”,而是从零开始设计。团队彻底重构了模型架构,不再让视觉和语言共用一套参数,而是让它们各司其职、互不干扰。这种“混合Transformer”(MoT)结构,让小模型也能学得深、记得牢,不会一学新东西就把旧本事忘光。
视觉部分也做了升级:HY-ViT2.0 编码器直接处理原始图像分辨率,不再压缩成模糊的“像素块”;再加上一套“视觉潜在Token”机制,相当于给机器人装上了“高精度视觉记忆”,哪怕物体被部分遮挡,它也能脑补出完整形态。
两颗“心脏”,一个为快,一个为强
这次推出了两个版本,满足不同场景:
- MoT-2B:参数总量40亿,激活20亿,专为机器人端侧部署设计。响应快、功耗低,能在嵌入式设备上实时运行,适合家庭服务机器人、仓储搬运等需要“即看即动”的场景。
- MoE-32B:总参数高达4070亿,但每次推理只激活320亿,性能接近GPT-4级别的推理能力。适合复杂任务规划、多步骤协作,比如在混乱的仓库里自动分拣、打包几十种不同形状的物品。
简单说:你想让机器人在家帮你拿快递、叠衣服,选MoT-2B;想让它在工厂里独立完成整条产线的智能调度,那就上MoE-32B。
训练数据,全是机器人“真人实拍”
这套模型的“知识库”不是网上爬来的图文,而是腾讯团队自己采集的超1亿条高质量数据——全是真实机器人在实验室里一遍遍试错拍下来的视频和传感器记录:怎么抓鸡蛋不碎、怎么推门不撞墙、怎么把纸箱堆成塔还不倒。
训练过程也下了狠功夫:用拒绝采样过滤错误动作,用强化学习让机器人“自己悟”最优解,再通过在线蒸馏不断优化决策链。简单讲,就是让机器人像人类一样,从失败中学习,越练越聪明。
实测结果:真能干活,不靠PPT
在22项权威机器人任务评测中,MoT-2B 拿下16项第一,比Qwen3-VL、RoboBrain这些热门模型都强。而MoE-32B在综合能力上,已经能和谷歌Gemini 1.5 Pro、OpenAI的机器人相关模型正面抗衡。
更硬核的是实机测试:搭载该模型的机器人,在打包快递、叠毛巾、分类摆放物品等真实任务中,成功率比主流方案高出30%以上。它能识别“这个纸箱是空的,轻,可以叠上面”,也能判断“这个玻璃杯不能和金属工具放一起”。
下一步:不只是实验室,更是你的家
这项技术的真正意义,不在于参数有多高,而在于它让机器人从“能动”走向“会想”。过去机器人靠预设程序干活,现在它能理解环境、适应变化、自主决策。
未来两年,我们可能看到:家庭机器人帮你整理杂物时不再手忙脚乱,仓储物流机器人能在双十一期间自动优化打包路径,甚至养老机器人能帮你把药瓶按时间顺序摆好,还知道别碰倒水杯。
这不是科幻。HY-Embodied-0.5,正在让这一天提前到来。