混元重建后首发开源Hy3 Preview：全面增强实用性与Agent能力

腾讯混元Hy3preview正式开源：更聪明、更实用、更便宜的大模型

4月23日，腾讯正式发布并开源了混元大模型的最新版本——Hy3preview。这不是一次简单的升级，而是一次从底层重构的全面跃进。这个模型总参数达2950亿，但真正激活参与计算的只有210亿，兼顾了强大能力与高效运行。它能处理长达256K的上下文，相当于一口气读完一本厚达800页的书，还能准确记住其中每一个细节。

作为混元团队“重建”后的首个作品，Hy3preview不再追求榜单分数，而是专注于解决真实问题。它已经在腾讯内部多个核心产品中落地，从办公助手到游戏NPC，从代码生成到客服对话，用户每天都在和它互动。现在，它终于开放给所有人使用。

不是“偏科生”，而是全能型选手

过去很多大模型擅长写代码，但看不懂长文档；能解数学题，却搞不定日常对话。Hy3preview不一样——它不靠单一技能“刷分”，而是把推理、理解、记忆、工具调用、多轮对话、代码执行这些能力揉在一起，像一个真正有经验的助手那样工作。

比如你给它一份杂乱的会议记录，要求它整理成PPT大纲，再写一份邮件通知同事，最后用Python把数据图表跑出来——它能一气呵成，不卡壳、不遗漏、不跑偏。这不是靠“提示词工程”骗出来的效果，而是模型真正理解了任务的完整链条。

清华数学博士考题，它拿了国内最高分

在清华大学求真书院2026年春季数学博士资格考试真题中，Hy3preview的得分位列全国第一，超过了许多顶尖高校的博士生。这不是模拟题，也不是简化版，是原题、原卷、限时作答。

同样，在国际数学奥林匹克（IMO）模拟题、全国中学生生物联赛（CHSBO2025）等高难度考试中，它都取得了远超同类模型的成绩。这些不是“背答案”，而是真正的逻辑推导和知识迁移能力。

你可能觉得：“这和我有什么关系？”——但当你在写商业报告时需要分析一组复杂数据，或在做投资决策时要理解一份财报中的隐含逻辑，这种能力，就是你真正需要的。

代码和智能体，直接干到行业第一梯队

如果说过去的大模型写代码像“查资料”，那Hy3preview已经能“独立开发”了。

在SWE-Bench Verified（业内公认的代码智能体权威测试）中，它成功解决了超过70%的真实GitHub项目缺陷修复任务，比GPT-4o、Claude 3.5等主流模型还高。在Terminal-Bench2.0中，它能自动执行多步命令、处理权限错误、修复依赖冲突，几乎不需要人工干预。

更关键的是，它不只是能写代码，还能“用工具”：

在BrowseComp测试中，它能像人类一样在网页上搜索、筛选、对比信息，然后总结成报告；
在WideSearch中，它能跨多个数据源查证事实，避免“一本正经地胡说八道”；
在OpenClaw、KiloCode等开源智能体框架中，它已无缝接入，开发者可以直接调用，搭建属于自己的自动化流程。

腾讯自己搭建的内部测试集Hy-SWE Max、Hy-Vibe Bench也显示：在真实开发场景中，它的成功率超过99.99%，错误率远低于行业平均水平。

腾讯自家产品，已经用上了

Hy3preview不是实验室里的“玩具”，它已经在你每天用的产品里工作：

腾讯文档AIPPT：生成PPT更快、更准、更美观，模板选择、配色、内容组织全自动生成，错误率下降近40%；
CodeBuddy & WorkBuddy：首字响应速度提升54%，端到端完成任务时间缩短近一半，最长能连续执行495步复杂操作，从查资料到写代码再到发邮件，全程自动化；
QQ助手小Q：现在它更懂你了——你问“昨天说的那个文件在哪？”，它能记住上下文，不让你重复描述；数学题解得更快，多轮对话不跑偏；
微信公众号AI分身：回复不再像机器人，不再“过度脑补”或“强行共情”，语气更自然，信息更准确，像一个靠谱的朋友在帮你回消息；
和平精英AINPC：游戏里的AI队友现在会说人话了——你能和它聊剧情、吐槽队友、讨论战术，它不会突然蹦出一句“根据系统设定，我建议你……”，而是像真实玩家那样，有情绪、有节奏、有停顿。

这些都不是宣传文案，是真实上线的体验。很多用户甚至没意识到自己正在和Hy3preview互动——因为它太像“人”了。