腾讯混元迎顶级科学家庞天宇领衔多模态强化学习研究

清华博士、前Sea AI Lab大牛加盟腾讯，主导混元大模型强化学习突破

近日，腾讯混元大模型团队迎来一位重量级人物——清华大学计算机系博士、前新加坡Sea AI Lab高级研究科学家庞天宇正式加盟，出任混元多模态部首席研究科学家。他的核心任务，是推动强化学习技术在多模态大模型中的落地，让混元不仅能“看懂”图片、视频和文字，更能像人一样“思考”和“决策”。

庞天宇的履历，在业内并不陌生。他本科就读于清华，博士期间深耕机器学习，研究方向覆盖深度强化学习、多模态表征学习等前沿领域。他的论文多次出现在NeurIPS、ICML、ICLR等AI顶会，不少成果被业界引用。更值得一提的是，他曾带队在多个国际AI挑战赛中夺冠，比如2022年全球多模态推理竞赛，他提出的模型在复杂场景理解任务中击败了来自Google、Meta等团队的方案，引发不小关注。

离开Sea AI Lab并非偶然。作为东南亚科技巨头Sea集团旗下的AI研究机构，Sea AI Lab曾聚焦电商与游戏场景中的智能决策系统，庞天宇在那里主导了多个落地项目，比如基于强化学习的个性化推荐引擎，直接提升了用户留存率。这段经历让他不只懂理论，更懂怎么让AI在真实场景中“跑起来”——而这正是腾讯混元目前最需要的。

混元的“人才拼图”，正在一块块补齐

庞天宇的加入，不是孤立事件。过去一年，腾讯混元团队已陆续引进多位来自OpenAI、DeepMind、CMU的顶尖人才。比如前OpenAI研究员姚顺雨，主攻大模型对齐与安全；还有来自斯坦福的多模态专家李维，负责视觉语言联合建模。这些人的共同点是：不只发论文，更亲手带过产品。

混元大模型自2023年发布以来，已接入微信、腾讯视频、腾讯会议等多个核心产品。但外界普遍认为，它在“逻辑推理”“长期规划”“动态交互”方面仍有提升空间。而强化学习，正是破解这些瓶颈的关键钥匙——它能让模型在反复试错中学会更优策略，比如在视频生成中自动调整镜头节奏，或在客服对话中主动追问用户意图。

庞天宇的团队，眼下正聚焦两个方向：一是让混元在图文理解中加入“推理链”，不再只是匹配关键词；二是探索“自主探索式学习”，让模型在无监督环境下，从海量视频和对话中提炼出隐含规律。这些工作，未来可能直接应用在微信智能助手、腾讯游戏NPC、甚至AI医生辅助系统中。

腾讯的AI，开始从“喊口号”转向“啃硬骨头”

过去几年，国内大厂纷纷押注AI，但真正敢在“底层技术”上砸资源的不多。腾讯这次的动作，明显更务实：不追热点，不炒概念，而是用真金白银请来能解决问题的人。

据知情人士透露，庞天宇的团队已获得独立实验室资源，配备百卡级算力集群，直接向混元首席科学家汇报。这意味着，他的研究不是“边缘实验”，而是被纳入核心产品路线图。

行业观察者指出，当其他公司还在比谁的参数更大、谁的发布会更炫时，腾讯已经开始悄悄搭建一支“能打仗”的团队——有理论深度，有工程落地经验，更懂中国用户的实际需求。这或许才是AI竞赛下半场真正的胜负手。

未来半年，混元大模型或将迎来一次关键升级。而庞天宇和他的团队，正站在这场升级的中心。

多模态强化学习混元大模型 AI人才

CB科技站

腾讯混元迎顶级科学家庞天宇领衔多模态强化学习研究

清华博士、前Sea AI Lab大牛加盟腾讯，主导混元大模型强化学习突破

混元的“人才拼图”，正在一块块补齐

腾讯的AI，开始从“喊口号”转向“啃硬骨头”

与本文相关的文章