声网联合美团发布VoiceAgentEval：首个AI外呼行业评测基准，提升人机交互自然度

AI外呼，终于有了“真考卷”

过去几年，市面上的AI外呼系统满嘴“高效”“智能”“精准”，可真到了电话那头，不是答非所问，就是一开口就冷场。企业用着用着发现：模型在实验室跑得漂亮，一上真实场景就掉链子。今天，声网联合美团和xbench，正式推出国内首个面向真实外呼业务的评测体系——VoiceAgentEval。这不是又一个技术指标，而是一套“真刀真枪”的考核标准。

不看参数，看电话怎么打

VoiceAgentEval的核心，就一句话：别在实验室里自嗨，上真实业务场景来比。

它不是用几条精心设计的问答题来测试AI，而是复刻了餐饮、快递、教育、金融、医疗、物业六大行业里最常遇到的30种真实通话场景——比如催缴水电费时用户突然发火、预约体检时对方反复犹豫、外卖投诉时客户语速飞快还夹杂方言。这些语料，全来自美团等企业过去三年的真实通话录音，脱敏处理后保留了原汁原味的语气、停顿、打断和情绪波动。

不只是听懂了，还要“接得住”

过去评估AI外呼，只看回复有没有关键词、有没有逻辑。VoiceAgentEval多加了一层：声音是不是像人？

它第一次把语音表现纳入评分：语速是否自然？有没有机械式重复？有没有在用户沉默时尴尬地“喂喂”？有没有在对方情绪激动时及时降调安抚？这些细节，决定用户是挂电话，还是愿意多听你三秒。

为了模拟真实交互，系统构建了150种动态对话路径。比如：用户一开始说“我不需要”，AI是硬推还是换话术？用户中途问“你们是不是机器人”，AI是回避还是坦诚？每一条路径都可能分支出三到五种后续，考验的不是预设脚本，是临场应变能力。

谁是现在最能打的AI外呼？

用这套标准跑完第一轮测试，结果出来了：目前有三款模型在综合表现上领先，其中一款由美团自研的系统在“任务完成率”和“用户留存率”两项关键指标上，明显优于市面上主流商用方案。虽然具体名称暂未公开，但业内已确认，北京三快科技（美团主体）的模型在真实业务中，已能将外呼转化率提升近40%，客户投诉率下降超三成。

这不是实验室的“高分答卷”，是真金白银换来的数据——某连锁餐饮品牌试用后，月均外呼量从12万提升到28万，人工回拨率直接砍掉一半。

未来，AI外呼该长成什么样？

VoiceAgentEval的发布，不是终点，而是一场行业洗牌的开始。

它让企业选型不再被“98%准确率”“毫秒响应”这类虚词忽悠，转而关注：这个AI，能不能在用户挂电话前，把事办成？

现在，越来越多的B端客户开始要求供应商提供“基于真实通话的测试报告”。有服务商已经表态：“我们不再吹模型参数，只晒VoiceAgentEval的评分。”

未来的AI外呼，不该是冷冰冰的机器人，而是一个懂人话、能共情、会转弯的“电话销售员”。它不需要完美，但必须真实。而VoiceAgentEval，正是让这个行业，开始学会说人话的第一步。

VoiceAgentEval AI外呼评测业务实效评估语音对话模拟

CB科技站