国产模型强势崛起：豆包跻身全球第一梯队，小米MiMo数学推理表现优异

国产大模型正杀入全球第一梯队

3月30日，中文大模型权威评测平台SuperCLUE发布了2026年3月最新测评结果。这次共有22款主流模型参评，覆盖数学推理、科学分析、代码生成、多轮对话、智能体规划、长文本理解六大核心能力。结果令人意外——以“豆包”为代表的国产模型，不仅站稳了国内第一，更在多项关键指标上逼近甚至超越了OpenAI、Google和Anthropic的顶级闭源模型。

在总分榜上，前三名依然是海外巨头：Claude-Opus-4.6、Gemini-3.1-Pro、GPT-5.4。但紧随其后的是字节跳动推出的豆包（Doubao-Seed-2.0-pro），以71.53分位列全球第四，距离GPT-5.4仅差0.95分。这不再是“追赶”，而是真正意义上的“并跑”。更值得注意的是，在“智能体任务规划”这一对逻辑和长期记忆要求极高的任务中，豆包直接冲进全球前五，超过了多个海外知名模型。

豆包：不只是中文强，而是全面硬刚

过去几年，国产大模型常被贴上“中文好、英文弱”“能聊天、不会算”的标签。但这次测评打破了这种刻板印象。

在数学推理任务中，豆包得分高达78.2分，远超许多海外闭源模型；在代码生成方面，它能准确理解复杂需求并生成可直接运行的Python、JavaScript和SQL代码，错误率低于3%。开发者社区里，已经有团队开始用豆包替代部分GPT-4的日常任务——不是因为便宜，而是因为“够稳、够快、响应更贴近真实需求”。

一位来自深圳的AI工程师在社交平台写道：“我试了GPT-5.4和豆包写同一个金融风控脚本，豆包少改了两次，注释更清晰，部署直接跑通。这不再是‘能用’，是‘好用’。”

小米MiMo：手机厂牌的AI突围战

当所有人都在关注大厂的模型时，小米的MiMo-V2系列悄然杀出。作为手机厂商跨界AI的代表，MiMo-V2-Pro在数学推理单项上拿到84.03分，是所有参评模型中的最高分，甚至超过了部分专业推理模型。

这不是偶然。小米团队把模型深度集成到手机系统中，针对本地计算、离线推理、多模态交互做了大量优化。它的强项不是“炫技”，而是“实用”——比如在手机上直接帮你解一道高考数学题、分析Excel表格、甚至根据你拍的电路板照片给出维修建议。

更让人意外的是，开源版MiMo-V2-Flash也同步上榜，在代码生成和轻量级对话中表现稳定。不少中小开发者开始用它做原型开发，理由很简单：“不卡、不收费、响应快，适合嵌入到自己的App里。”

开源赛道，国产彻底封神

如果说闭源模型还在拼算力和资金，那开源领域，国产模型已经实现了碾压。

在开源模型榜单上，前三位全被中国团队包揽：Kimi-K2.5-Thinking、Qwen3.5-397B、GLM-4-9B。它们不仅性能远超Llama 3.1、Mistral 7B等国际主流开源模型，更重要的是——更新快、文档全、中文社区活跃。

GitHub上，Qwen3.5的开源项目一个月内收获了超过12万星，远超同期的Llama 3.1。国内高校、创业公司、甚至县城中学的AI兴趣小组，都在用这些模型做教学、做项目、做产品。一位贵州的中学老师说：“我们用Qwen教学生写Python，学生自己改了模型提示词，做出一个能批改作文的工具，全校都用上了。”

真正的转折点，不是参数，是落地

2026年的这份榜单，不再只是参数和分数的比拼。它揭示了一个更深层的变化：国产大模型，正从“能说话”走向“能做事”。

豆包在企业级客服系统中，已帮助某银行将人工坐席压力降低40%；MiMo-V2被集成进小米汽车的语音助手，能听懂司机用方言说“空调太闷，开点窗，放点轻音乐”；Qwen3.5被某地市政务平台用来自动回复市民咨询，准确率超过92%。

这些都不是实验室里的演示，而是真正在用、真正在赚、真正在改变工作方式的落地场景。

我们不再需要问“中国有没有好模型”，而是该问：“你用哪个？”

豆包 Kimi-K2.5-Thinking MiMo-V2 Qwen3.5-397B

CB科技站