清华学霸庞天宇加盟腾讯混元，领衔多模态强化学习研究

庞天宇加盟腾讯混元，带队攻坚多模态AI下一代突破

近日，AI圈内传开一条重磅消息：原新加坡Sea AI实验室高级研究科学家、清华大学直博生庞天宇，正式加入腾讯混元团队，出任首席研究科学家，并全面负责多模态强化学习方向的技术研发。这不是一次普通的高管跳槽——这是中国大模型战场上，一位被学界和业界同时看好的青年领军者，带着明确目标回归本土战场。

庞天宇的履历，不是“简历镀金”，而是实打实的硬核积累。2017年以优异成绩进入清华计算机系直博，师从国内机器学习领域权威朱军教授。博士期间，他没有停留在理论推导，而是直面AI最棘手的问题：模型为什么在小扰动下会“犯傻”？如何让AI在复杂现实场景中更可靠？他以第一作者身份在ICML、NeurIPS、ICLR三大顶会连续发表多篇Oral论文，其中不少成果被工业界直接用于提升模型鲁棒性。2021年，他拿下微软学者奖学金——全球每年仅20人入选；次年又获英伟达学术先锋奖，成为国内少有的同时被科技巨头与学术界双重认可的青年研究者。

离开校园后，他没有选择留在高校，而是加入新加坡Sea AI实验室——这家由东南亚互联网巨头Sea集团打造的AI团队，曾主导过电商场景下的多模态推荐系统、视频理解与生成模型落地。在这里，他不仅懂算法，更懂怎么让AI在真实用户行为数据中跑起来。这段经历，让他成为少数既能在顶会发论文、又能在产品里扛住日活千万级压力的“双栖人才”。

为什么这次加入腾讯混元，被业内视为关键落子？

腾讯混元近期在多模态大模型上动作频频，但真正的瓶颈不在参数量，而在“理解力”和“协同力”——让文本、图像、语音、视频能真正“互相听懂”，而不是简单拼接。庞天宇此行的核心任务，正是打通强化学习与多模态模型的“任督二脉”。

简单说，他要解决的是：当AI生成一张图时，如何让它根据用户一句“修改左边的狗，让它在雨中奔跑”做出符合物理规律、逻辑连贯的调整？这背后不是一句提示词能搞定的，需要模型具备动态推理、长期反馈学习和跨模态因果建模能力——而这正是强化学习最擅长的领域。他计划将类似AlphaGo的“试错-反馈-优化”机制，引入扩散模型与视觉语言模型（VLM）的训练闭环，让AI不再“照本宣科”，而是学会“思考”。

据知情人士透露，目前庞天宇已启动全球人才招募，目标是组建一支不超过30人的精锐小队，成员需兼具理论深度与工程落地能力。他明确表示：“我们不追论文数量，只看能不能让模型在真实场景里‘活’起来。”团队将优先吸纳有机器人控制、游戏AI、具身智能背景的人才——这些领域，正是多模态强化学习最成熟的试验场。

不只是技术升级，更是一次人才回流信号

过去几年，大量顶尖AI人才流向海外大厂或初创公司。而这一次，庞天宇的选择，被许多业内人士视为“风向标”：中国大模型的下半场，不再只是拼算力和数据，而是拼谁能把顶尖人才真正用起来，给足空间，让他们去啃最难的骨头。

有同行评价：“他不是来当技术主管的，是来当‘问题解决者’的。”在腾讯内部，混元团队已将多模态生成的稳定性、可控性列为2025年核心KPI。庞天宇的加入，意味着这场攻坚战，正式进入“深水区”。

如果你关注AI如何从“能画图”走向“能思考”，从“模仿人类”走向“理解世界”，那么接下来半年，庞天宇团队的每一个进展，都值得盯紧。

扩散模型视觉语言模型多模态强化学习腾讯混元

CB科技站

清华学霸庞天宇加盟腾讯混元，领衔多模态强化学习研究

庞天宇加盟腾讯混元，带队攻坚多模态AI下一代突破

为什么这次加入腾讯混元，被业内视为关键落子？

不只是技术升级，更是一次人才回流信号

与本文相关的文章