Zoom 不靠自研大模型,却在AI“高考”中夺冠
过去几年,人工智能领域的顶尖成绩几乎被谷歌、OpenAI 和 Anthropic 等巨头垄断。它们烧钱训练万亿参数模型,争夺“最聪明AI”的头衔。但上周,一个意想不到的玩家突然杀出——视频会议软件 Zoom,它的AI系统在被称为“人类最后的考试”(Humanity’s Last Exam, HLE)的权威测试中,以48.1%的得分刷新了世界纪录,超过了谷歌Gemini 1.5 Pro此前保持的45.8%。
这并不是一场模型参数的军备竞赛。Zoom 没有花几十亿美元训练自己的大模型,也没有搭建超算集群。它做了一件更务实、也更让人意外的事:它把市面上最好的AI模型“拼”在了一起,然后选出最好的答案。

不造引擎,只当“司机”:Zoom的聪明玩法
Zoom 的首席技术官黄学东,曾是微软语音识别和AI团队的核心人物。他没选择走传统路线,而是提出一个简单却颠覆性的思路:“我们不需要自己造车,只要学会在不同品牌车之间,选最快、最稳的那辆。”
他们开发了一套叫“Z-Scorer”的智能调度系统,实时接收来自GPT-4、Claude 3、Gemini 1.5 等多个主流模型的响应,然后像一个经验丰富的裁判,判断哪个答案最准确、最清晰、最符合人类逻辑。这不是简单地取平均值,而是能识别出:哪一段推理有漏洞,哪一句回答最贴近问题本质。
更关键的是,这套系统还引入了“辩论机制”:让多个AI模型互相提问、反驳、修正。比如,当GPT-4给出一个数学解法,Claude 3会指出其中一步假设不成立,然后Gemini 1.5再补充一个更严谨的推导。最终,系统综合这些对话,输出一个比任何单一模型都更可靠的答案。
这就像一支足球队,不靠单个超级巨星,而是靠默契配合、战术调度和临场应变赢球。Zoom 没有培养“天才球员”,但它打造了一个“冠军教练团队”。
争议来了:是创新,还是“搭便车”?
消息一出,科技圈炸了锅。
一些工程师批评这是“API套壳”——不过是把别人的东西调一遍,再挑个最好的,算什么本事?“这就像在Kaggle比赛里,只用别人开源的模型,改个参数就拿冠军,毫无技术含量。”一位知名开发者在X(原Twitter)上写道。
但另一些人站出来反驳:现实世界本来就不该“单打独斗”。
在金融交易、医疗诊断、自动驾驶等领域,集成多个模型早已是行业标准。Kaggle历史上超过70%的冠军方案都用了模型集成。就连OpenAI自己的ChatGPT,背后也融合了多个微调版本和人工反馈机制。
“Zoom不是在偷懒,是在聪明地利用生态。”AI研究员朱宏成在知乎长文分析:“他们避开了训练模型的天价成本,却拿到了接近顶尖的性能。更重要的是,他们不被任何一家供应商绑架——今天GPT-4贵了,明天就换Claude;后天Gemini升级了,系统自动切换。这才是真正的商业韧性。”
真正的战场不在排行榜,而在你的下一场会议里
黄学东很清楚,HLE的分数只是敲门砖。真正考验Zoom AI的,是它即将上线的“AI Companion 3.0”——一个直接面向3亿用户的会议助手。
想象一下:你刚开完一场跨国项目会,AI Companion 3.0 自动帮你:
- 提炼出5个明确的待办事项,标注负责人和截止时间
- 识别出会上争论最激烈的三个分歧点,并给出双方观点摘要
- 把模糊的口头承诺(比如“我下周再发一份”)转化成可追踪的行动项
- 自动翻译并总结非母语参会者的发言,确保信息无损
这些不是HLE考题里的哲学思辨,而是每天数千万人真实面对的痛点。而Zoom的“联邦大脑”,恰恰擅长处理这种多角度、多来源、模糊语义的复杂任务。
有测试用户反馈,新版本比之前版本“更懂人话”:它不会机械复述会议内容,而是能判断“谁在推诿”、“谁在真正推动进度”,甚至能提醒你:“刚才李总说‘看看再说’,其实是不想接手,建议你主动跟进。”
这不是AI在“答题”,而是在“做事”。
未来已来:AI的竞争,不再是模型大小,而是谁更懂人
Zoom的胜利,可能标志着AI竞争进入新阶段:
- 大模型不再是唯一门槛,**智能调度**才是新护城河
- 用户不关心你用的是GPT-4还是Claude 3,他们只关心:**能不能帮我省时间、不出错**
- 真正的赢家,不是那个最贵的模型,而是**最懂怎么组合模型的人**
当其他公司还在比谁的参数多、谁的显卡堆得高时,Zoom已经悄悄把AI变成了一个“会思考的助手”。它不炫技,不造神,只是安静地,把最好的工具,用得刚刚好。
或许,这才是AI落地的真正答案:不是成为最聪明的AI,而是成为最实用的AI。