腾讯发布HY-Embodied-0.5具身智能模型，22项测试中16项登顶行业第一

腾讯发布专为机器人打造的“大脑”：HY-Embodied-0.5，让机器真懂物理世界

近日，腾讯 Robotics X 实验室联合腾讯混元团队，正式推出全球首个专为实体机器人设计的基础大模型——HY-Embodied-0.5。这不是又一个能聊天、能识图的通用AI，而是真正能“看懂”房间、理解物体重量、判断怎么抓稳杯子、知道茶杯不能堆在易碎品上面的“机器人大脑”。

过去几年，很多AI模型能看图说话、写诗作画，但一放到真实机器人身上就“傻眼”——分不清哪个是桌子腿、哪个是电线，抓东西不是太用力捏碎，就是太轻滑掉。HY-Embodied-0.5 的目标，就是解决这个“眼高手低”的老大难问题。

这款模型不是在现有大模型基础上“打补丁”，而是从零开始设计。团队彻底重构了模型架构，不再让视觉和语言共用一套参数，而是让它们各司其职、互不干扰。这种“混合Transformer”（MoT）结构，让小模型也能学得深、记得牢，不会一学新东西就把旧本事忘光。

视觉部分也做了升级：HY-ViT2.0 编码器直接处理原始图像分辨率，不再压缩成模糊的“像素块”；再加上一套“视觉潜在Token”机制，相当于给机器人装上了“高精度视觉记忆”，哪怕物体被部分遮挡，它也能脑补出完整形态。

这次推出了两个版本，满足不同场景：

MoT-2B：参数总量40亿，激活20亿，专为机器人端侧部署设计。响应快、功耗低，能在嵌入式设备上实时运行，适合家庭服务机器人、仓储搬运等需要“即看即动”的场景。
MoE-32B：总参数高达4070亿，但每次推理只激活320亿，性能接近GPT-4级别的推理能力。适合复杂任务规划、多步骤协作，比如在混乱的仓库里自动分拣、打包几十种不同形状的物品。

简单说：你想让机器人在家帮你拿快递、叠衣服，选MoT-2B；想让它在工厂里独立完成整条产线的智能调度，那就上MoE-32B。

这套模型的“知识库”不是网上爬来的图文，而是腾讯团队自己采集的超1亿条高质量数据——全是真实机器人在实验室里一遍遍试错拍下来的视频和传感器记录：怎么抓鸡蛋不碎、怎么推门不撞墙、怎么把纸箱堆成塔还不倒。

训练过程也下了狠功夫：用拒绝采样过滤错误动作，用强化学习让机器人“自己悟”最优解，再通过在线蒸馏不断优化决策链。简单讲，就是让机器人像人类一样，从失败中学习，越练越聪明。

在22项权威机器人任务评测中，MoT-2B 拿下16项第一，比Qwen3-VL、RoboBrain这些热门模型都强。而MoE-32B在综合能力上，已经能和谷歌Gemini 1.5 Pro、OpenAI的机器人相关模型正面抗衡。

更硬核的是实机测试：搭载该模型的机器人，在打包快递、叠毛巾、分类摆放物品等真实任务中，成功率比主流方案高出30%以上。它能识别“这个纸箱是空的，轻，可以叠上面”，也能判断“这个玻璃杯不能和金属工具放一起”。

这项技术的真正意义，不在于参数有多高，而在于它让机器人从“能动”走向“会想”。过去机器人靠预设程序干活，现在它能理解环境、适应变化、自主决策。

未来两年，我们可能看到：家庭机器人帮你整理杂物时不再手忙脚乱，仓储物流机器人能在双十一期间自动优化打包路径，甚至养老机器人能帮你把药瓶按时间顺序摆好，还知道别碰倒水杯。

这不是科幻。HY-Embodied-0.5，正在让这一天提前到来。