最新消息:关注人工智能 AI赋能新媒体运营

豆包登顶SuperCLUE测评,跻身全球大模型第一梯队

科技资讯 admin 浏览

豆包杀入全球第一梯队,小米MiMo首度亮相,国产大模型迎来关键一战

国内权威的大模型评测平台SuperCLUE刚刚发布最新综合榜单,字节跳动的豆包(Doubao-pro)表现抢眼,综合得分稳居全球前五,正式迈入与GPT-4、Claude 3、Gemini 1.5同台竞技的第一梯队。这不是靠宣传喊出来的,而是实打实的中文理解、逻辑推理、长文摘要和多轮对话能力通过上千项测试后得出的结果。

更让人意外的是,小米秘密研发的MiMo大模型首次出现在榜单中,位列国产模型前十。作为手机厂商首次以独立大模型身份上榜,这意味着“端云协同”不再是概念——MiMo已经能跑在手机上,也能联动云端,处理复杂指令。有业内人士透露,MiMo已在小米澎湃OS 3.0中深度集成,未来在语音助手、跨设备任务调度、拍照识物、本地文档理解等场景中,将有明显体验提升。

image.png

国产模型不再只比参数,比的是“真能用”

过去大家总盯着模型参数多大、训练数据多少,这次SuperCLUE的报告却给出了新方向:谁能把事儿办明白,谁才是赢家。

豆包的优势很实在:在抖音、今日头条、飞书这些字节系产品里,它每天要处理数亿次对话。结果就是——它特别懂中文里的“潜台词”。比如你问“明天下午三点约老王吃饭,他最近总迟到,能不能提醒我提前半小时?”它不仅能记下来,还会自动推算出最佳提醒时间,甚至建议你提前订位。这种“懂人”的能力,不是靠调参调出来的,是被真实用户“用”出来的。

百度文心一言、阿里通义千问依然稳居第一梯队,尤其在政务、金融、教育等专业场景中,它们的合规性和稳定性依然是行业标杆。但如今,它们也面临新挑战:用户不再满足于“能回答”,而是要“答得快、答得准、不卡壳”。

手机厂商的AI翻身仗,从“能听懂”到“能做事”

小米MiMo的出现,让整个行业重新审视手机厂商的AI野心。

过去,手机厂商做AI,大多是“贴个标签”——语音助手喊两句“小爱同学”,查个天气、开个灯。而MiMo不一样,它能在手机本地运行轻量模型,处理隐私敏感任务(比如读短信、分析通话记录),同时在需要复杂推理时,无缝调用云端大模型。这意味着:你不用上传聊天记录,它也能帮你总结会议要点;你拍一张家庭群聊截图,它能自动提炼出“谁要带菜”“谁没回消息”。

有测试者实测,MiMo在小米14 Ultra上,响应本地指令的速度比iPhone的Siri快近40%,而且能连续处理5轮以上复杂任务不掉线。这不是PPT功能,是真正在用的系统级能力。

未来三年,拼的不是模型,是场景

SuperCLUE专家组在报告末尾点明:大模型的“军备竞赛”已经结束,真正的战场在场景。

豆包赢在内容生态——写文案、做短视频脚本、生成爆款标题,它已经成了不少自媒体团队的“隐形助手”;MiMo赢在设备联动——手机、电视、手表、音箱,一套系统里无缝协作,这才是未来家庭AI的正确打开方式。

华为盘古、腾讯混元、讯飞星火也在加速迭代,但它们都在面对同一个问题:用户愿意为“更聪明的AI”多付多少钱?

答案或许不在实验室,而在你手机里那个能帮你订餐、记账、写周报、提醒爸妈吃药的AI助手——它不炫技,但让你离不开,这才是真正的胜利。