豆包登顶SuperCLUE测评，跻身全球大模型第一梯队

豆包杀入全球第一梯队，小米MiMo首度亮相，国产大模型迎来关键一战

国内权威的大模型评测平台SuperCLUE刚刚发布最新综合榜单，字节跳动的豆包（Doubao-pro）表现抢眼，综合得分稳居全球前五，正式迈入与GPT-4、Claude 3、Gemini 1.5同台竞技的第一梯队。这不是靠宣传喊出来的，而是实打实的中文理解、逻辑推理、长文摘要和多轮对话能力通过上千项测试后得出的结果。

更让人意外的是，小米秘密研发的MiMo大模型首次出现在榜单中，位列国产模型前十。作为手机厂商首次以独立大模型身份上榜，这意味着“端云协同”不再是概念——MiMo已经能跑在手机上，也能联动云端，处理复杂指令。有业内人士透露，MiMo已在小米澎湃OS 3.0中深度集成，未来在语音助手、跨设备任务调度、拍照识物、本地文档理解等场景中，将有明显体验提升。

国产模型不再只比参数，比的是“真能用”

过去大家总盯着模型参数多大、训练数据多少，这次SuperCLUE的报告却给出了新方向：谁能把事儿办明白，谁才是赢家。

豆包的优势很实在：在抖音、今日头条、飞书这些字节系产品里，它每天要处理数亿次对话。结果就是——它特别懂中文里的“潜台词”。比如你问“明天下午三点约老王吃饭，他最近总迟到，能不能提醒我提前半小时？”它不仅能记下来，还会自动推算出最佳提醒时间，甚至建议你提前订位。这种“懂人”的能力，不是靠调参调出来的，是被真实用户“用”出来的。

百度文心一言、阿里通义千问依然稳居第一梯队，尤其在政务、金融、教育等专业场景中，它们的合规性和稳定性依然是行业标杆。但如今，它们也面临新挑战：用户不再满足于“能回答”，而是要“答得快、答得准、不卡壳”。

手机厂商的AI翻身仗，从“能听懂”到“能做事”

小米MiMo的出现，让整个行业重新审视手机厂商的AI野心。

过去，手机厂商做AI，大多是“贴个标签”——语音助手喊两句“小爱同学”，查个天气、开个灯。而MiMo不一样，它能在手机本地运行轻量模型，处理隐私敏感任务（比如读短信、分析通话记录），同时在需要复杂推理时，无缝调用云端大模型。这意味着：你不用上传聊天记录，它也能帮你总结会议要点；你拍一张家庭群聊截图，它能自动提炼出“谁要带菜”“谁没回消息”。

有测试者实测，MiMo在小米14 Ultra上，响应本地指令的速度比iPhone的Siri快近40%，而且能连续处理5轮以上复杂任务不掉线。这不是PPT功能，是真正在用的系统级能力。

未来三年，拼的不是模型，是场景

SuperCLUE专家组在报告末尾点明：大模型的“军备竞赛”已经结束，真正的战场在场景。

豆包赢在内容生态——写文案、做短视频脚本、生成爆款标题，它已经成了不少自媒体团队的“隐形助手”；MiMo赢在设备联动——手机、电视、手表、音箱，一套系统里无缝协作，这才是未来家庭AI的正确打开方式。

华为盘古、腾讯混元、讯飞星火也在加速迭代，但它们都在面对同一个问题：用户愿意为“更聪明的AI”多付多少钱？

答案或许不在实验室，而在你手机里那个能帮你订餐、记账、写周报、提醒爸妈吃药的AI助手——它不炫技，但让你离不开，这才是真正的胜利。

豆包 MiMo SuperCLUE 大模型测评

CB科技站

豆包登顶SuperCLUE测评，跻身全球大模型第一梯队

豆包杀入全球第一梯队，小米MiMo首度亮相，国产大模型迎来关键一战

国产模型不再只比参数，比的是“真能用”

手机厂商的AI翻身仗，从“能听懂”到“能做事”

未来三年，拼的不是模型，是场景

与本文相关的文章