Zoom 跨界登顶，联邦AI刷新全球最难AI考试纪录

Zoom 不靠自研大模型，却在AI“高考”中夺冠

过去几年，人工智能领域的顶尖成绩几乎被谷歌、OpenAI 和 Anthropic 等巨头垄断。它们烧钱训练万亿参数模型，争夺“最聪明AI”的头衔。但上周，一个意想不到的玩家突然杀出——视频会议软件 Zoom，它的AI系统在被称为“人类最后的考试”（Humanity’s Last Exam, HLE）的权威测试中，以48.1%的得分刷新了世界纪录，超过了谷歌Gemini 1.5 Pro此前保持的45.8%。

这并不是一场模型参数的军备竞赛。Zoom 没有花几十亿美元训练自己的大模型，也没有搭建超算集群。它做了一件更务实、也更让人意外的事：它把市面上最好的AI模型“拼”在了一起，然后选出最好的答案。

会议开会

不造引擎，只当“司机”：Zoom的聪明玩法

Zoom 的首席技术官黄学东，曾是微软语音识别和AI团队的核心人物。他没选择走传统路线，而是提出一个简单却颠覆性的思路：“我们不需要自己造车，只要学会在不同品牌车之间，选最快、最稳的那辆。”

他们开发了一套叫“Z-Scorer”的智能调度系统，实时接收来自GPT-4、Claude 3、Gemini 1.5 等多个主流模型的响应，然后像一个经验丰富的裁判，判断哪个答案最准确、最清晰、最符合人类逻辑。这不是简单地取平均值，而是能识别出：哪一段推理有漏洞，哪一句回答最贴近问题本质。

更关键的是，这套系统还引入了“辩论机制”：让多个AI模型互相提问、反驳、修正。比如，当GPT-4给出一个数学解法，Claude 3会指出其中一步假设不成立，然后Gemini 1.5再补充一个更严谨的推导。最终，系统综合这些对话，输出一个比任何单一模型都更可靠的答案。

这就像一支足球队，不靠单个超级巨星，而是靠默契配合、战术调度和临场应变赢球。Zoom 没有培养“天才球员”，但它打造了一个“冠军教练团队”。

争议来了：是创新，还是“搭便车”？

消息一出，科技圈炸了锅。

一些工程师批评这是“API套壳”——不过是把别人的东西调一遍，再挑个最好的，算什么本事？“这就像在Kaggle比赛里，只用别人开源的模型，改个参数就拿冠军，毫无技术含量。”一位知名开发者在X（原Twitter）上写道。

但另一些人站出来反驳：现实世界本来就不该“单打独斗”。

在金融交易、医疗诊断、自动驾驶等领域，集成多个模型早已是行业标准。Kaggle历史上超过70%的冠军方案都用了模型集成。就连OpenAI自己的ChatGPT，背后也融合了多个微调版本和人工反馈机制。

“Zoom不是在偷懒，是在聪明地利用生态。”AI研究员朱宏成在知乎长文分析：“他们避开了训练模型的天价成本，却拿到了接近顶尖的性能。更重要的是，他们不被任何一家供应商绑架——今天GPT-4贵了，明天就换Claude；后天Gemini升级了，系统自动切换。这才是真正的商业韧性。”

真正的战场不在排行榜，而在你的下一场会议里

黄学东很清楚，HLE的分数只是敲门砖。真正考验Zoom AI的，是它即将上线的“AI Companion 3.0”——一个直接面向3亿用户的会议助手。

想象一下：你刚开完一场跨国项目会，AI Companion 3.0 自动帮你：

提炼出5个明确的待办事项，标注负责人和截止时间
识别出会上争论最激烈的三个分歧点，并给出双方观点摘要
把模糊的口头承诺（比如“我下周再发一份”）转化成可追踪的行动项
自动翻译并总结非母语参会者的发言，确保信息无损

这些不是HLE考题里的哲学思辨，而是每天数千万人真实面对的痛点。而Zoom的“联邦大脑”，恰恰擅长处理这种多角度、多来源、模糊语义的复杂任务。

有测试用户反馈，新版本比之前版本“更懂人话”：它不会机械复述会议内容，而是能判断“谁在推诿”、“谁在真正推动进度”，甚至能提醒你：“刚才李总说‘看看再说’，其实是不想接手，建议你主动跟进。”

这不是AI在“答题”，而是在“做事”。

未来已来：AI的竞争，不再是模型大小，而是谁更懂人

Zoom的胜利，可能标志着AI竞争进入新阶段：

大模型不再是唯一门槛，**智能调度**才是新护城河
用户不关心你用的是GPT-4还是Claude 3，他们只关心：**能不能帮我省时间、不出错**
真正的赢家，不是那个最贵的模型，而是**最懂怎么组合模型的人**

当其他公司还在比谁的参数多、谁的显卡堆得高时，Zoom已经悄悄把AI变成了一个“会思考的助手”。它不炫技，不造神，只是安静地，把最好的工具，用得刚刚好。

或许，这才是AI落地的真正答案：不是成为最聪明的AI，而是成为最实用的AI。

CB科技站