最新消息:关注人工智能 AI赋能新媒体运营

声网联合美团发布VoiceAgentEval:首个AI外呼行业评测基准,提升人机交互自然度

科技资讯 admin 浏览

AI外呼,终于有了“真考卷”

过去几年,市面上的AI外呼系统满嘴“高效”“智能”“精准”,可真到了电话那头,不是答非所问,就是一开口就冷场。企业用着用着发现:模型在实验室跑得漂亮,一上真实场景就掉链子。今天,声网联合美团和xbench,正式推出国内首个面向真实外呼业务的评测体系——VoiceAgentEval。这不是又一个技术指标,而是一套“真刀真枪”的考核标准。

不看参数,看电话怎么打

VoiceAgentEval的核心,就一句话:别在实验室里自嗨,上真实业务场景来比。

它不是用几条精心设计的问答题来测试AI,而是复刻了餐饮、快递、教育、金融、医疗、物业六大行业里最常遇到的30种真实通话场景——比如催缴水电费时用户突然发火、预约体检时对方反复犹豫、外卖投诉时客户语速飞快还夹杂方言。这些语料,全来自美团等企业过去三年的真实通话录音,脱敏处理后保留了原汁原味的语气、停顿、打断和情绪波动。

不只是听懂了,还要“接得住”

过去评估AI外呼,只看回复有没有关键词、有没有逻辑。VoiceAgentEval多加了一层:声音是不是像人?

它第一次把语音表现纳入评分:语速是否自然?有没有机械式重复?有没有在用户沉默时尴尬地“喂喂”?有没有在对方情绪激动时及时降调安抚?这些细节,决定用户是挂电话,还是愿意多听你三秒。

为了模拟真实交互,系统构建了150种动态对话路径。比如:用户一开始说“我不需要”,AI是硬推还是换话术?用户中途问“你们是不是机器人”,AI是回避还是坦诚?每一条路径都可能分支出三到五种后续,考验的不是预设脚本,是临场应变能力。

谁是现在最能打的AI外呼?

用这套标准跑完第一轮测试,结果出来了:目前有三款模型在综合表现上领先,其中一款由美团自研的系统在“任务完成率”和“用户留存率”两项关键指标上,明显优于市面上主流商用方案。虽然具体名称暂未公开,但业内已确认,北京三快科技(美团主体)的模型在真实业务中,已能将外呼转化率提升近40%,客户投诉率下降超三成。

这不是实验室的“高分答卷”,是真金白银换来的数据——某连锁餐饮品牌试用后,月均外呼量从12万提升到28万,人工回拨率直接砍掉一半。

未来,AI外呼该长成什么样?

VoiceAgentEval的发布,不是终点,而是一场行业洗牌的开始。

它让企业选型不再被“98%准确率”“毫秒响应”这类虚词忽悠,转而关注:这个AI,能不能在用户挂电话前,把事办成?

现在,越来越多的B端客户开始要求供应商提供“基于真实通话的测试报告”。有服务商已经表态:“我们不再吹模型参数,只晒VoiceAgentEval的评分。”

未来的AI外呼,不该是冷冰冰的机器人,而是一个懂人话、能共情、会转弯的“电话销售员”。它不需要完美,但必须真实。而VoiceAgentEval,正是让这个行业,开始学会说人话的第一步。