谷歌AI推出Vantage：基于大语言模型的协作与创造力评估新方法

为什么传统考试测不出真正的“本事”？

我们从小到大，考试几乎成了衡量学习成果的唯一标准：背熟公式、答对选择题、写出标准答案，就能拿高分。可现实是，走出教室后，没人问你“求导数的步骤是什么”，但你会不会和同事吵完架后还能一起把项目做完？会不会在截止前夜想出一个让人拍案叫绝的点子？会不会一眼看出老板的方案漏洞，还能有理有据地说出来？

这些能力——协作、创造力、批判性思维——被教育界称为“持久技能”。它们决定一个人能不能在真实世界里站稳脚跟，可几十年来，我们连怎么测都找不到靠谱的办法。PISA2015曾尝试用电脑模拟队友对话，但那更像是“填空题+剧本表演”，学生知道答案藏在系统预设的选项里，根本谈不上真实互动。

谷歌的新尝试：让AI当“真队友”

谷歌的研究团队没再绕弯子。他们直接问：如果让AI扮演真实团队里的不同角色，和真人一起完成一个任务，能不能测出人到底会怎么应对冲突、激发创意、分析问题？他们开发了一个叫 Vantage 的系统，核心是一个能“统筹全局”的大语言模型——不是几个AI各自乱说，而是由一个“指挥官”AI，同时控制所有角色的对话节奏。

举个例子：在一场关于“公司裁员方案”的模拟讨论中，这个AI会故意让一个角色情绪激动、另一个角色沉默回避、第三个角色提出激进方案。它不靠预设脚本，而是根据你说了什么，实时调整其他角色的反应——逼你真动脑、真沟通、真妥协。这不是考试，更像一场“职场生存演练”。

188人实测：AI评分靠谱吗？

研究团队找了188名18到25岁的年轻人，每人和这套AI系统进行30分钟的小组任务，内容涵盖解决团队矛盾、设计新产品、分析社会议题等。总共收集了373段真实对话。

评分怎么来的？纽约大学两位资深教育评估专家，和Vantage的AI系统一起打分。结果出人意料：AI的评分和人类专家的吻合度高达87%以上。尤其在“提出有深度的反驳意见”和“整合不同观点形成新方案”这两项最难量化的技能上，AI的表现甚至比过去那些“各自为政”的AI代理更稳定、更敏锐。

更关键的是，参与者事后反馈：“感觉不像在和机器聊天，倒像真在开会。” 有人甚至说：“那个总唱反调的AI，比我们组里那个爱抬杠的同事还难搞。”

这不只是技术突破，更是教育的拐点

过去，我们总以为“能力”看不见、摸不着，只能靠老师观察、写评语。可老师带50个学生，哪有时间盯每个人的一言一行？Vantage 的意义，不在于它有多聪明，而在于它第一次让“评估真实能力”这件事，变得可复制、可规模化。

想象一下，未来高中生申请大学，除了成绩单，还能提交一段“Vantage协作能力报告”；企业招聘时，HR不再只看简历上的“擅长沟通”，而是能看到你和AI团队处理危机的真实对话记录。这不是科幻，谷歌团队已经和几所大学、教育科技公司展开试点。

我们不再需要更多选择题，我们需要的是：能看懂你如何在压力下思考、在分歧中成长、在沉默里发声的工具。Vantage，可能正是那把钥匙。

CB科技站

谷歌AI推出Vantage：基于大语言模型的协作与创造力评估新方法

为什么传统考试测不出真正的“本事”？

谷歌的新尝试：让AI当“真队友”

188人实测：AI评分靠谱吗？

这不只是技术突破，更是教育的拐点

与本文相关的文章