国内首份高考志愿AI测评基准发布,千问Agent表现对标人类咨询师
6月23日,友松实验室发布国内首个针对高考志愿填报场景的AI能力测评报告《高考志愿AI测评基准》。报告以千问高考志愿填报Agent为测评对象,结果显示其在多项指标上已达到人类志愿咨询师水平,并在稳定性、精确性、结构化表达与响应效率上具备优势。
友松实验室长期关注大模型能力评估与教育场景AI应用。此次测评旨在为高考志愿AI产品建立公开、可复现的评估框架,明确当前阶段AI的任务边界。千问高考Agent基于夸克八年高考服务数据与经验构建,具备行业代表性,因此被列为首个测评对象。人类对照组由53名平均从业4.6年的志愿填报咨询师组成。
测评覆盖查资料、看规则、排方案、做决策四个核心环节。44道客观题测试中,千问全部答对,准确率达100%,人类咨询师平均正确率为89.3%。模拟志愿填报环节,千问方案包含6个可录取志愿,未出现显性偏好违背,并命中事后评估的最优结果;人类咨询师平均为5.3个。开放式咨询环节经过100场匿名对比,评审专家58次更倾向千问版本。千问回答可直接向学生和家长展示的比例为56.0%,高于人类咨询师的33.0%。专家反馈其在专业路径拆解、风险提示和表达清晰度上更为稳定。
报告指出,在设定任务范围内,千问表现已触及资深人类咨询师水平。不过,人类咨询师的价值依然不可替代。涉及收入预期、就业判断等需要结合个体情况谨慎校准的话题,咨询师更能给出贴近实际的建议。亲子协商、家庭价值取舍等环节,结构完整的AI方案也无法替代人与人之间的沟通。报告建议,AI更适合承担信息核验、资料整理和方案初筛,人类咨询师则聚焦家庭沟通与个性化判断。两者互补,能让志愿填报更准确,也更贴合考生家庭的实际需求。