字节跳动发布原生全双工语音大模型Seeduplex：懂倾听、抗干扰

字节跳动发布全新语音交互模型 Seeduplex，豆包App已全面上线

4月9日，字节跳动Seed团队正式推出原生全双工语音大模型Seeduplex，这款模型让语音助手第一次真正“听懂了人说话的节奏”——不用等你说完再回应，而是像人与人聊天一样，边听边说，自然流畅。

目前，Seeduplex 已在豆包App全量上线，覆盖数亿用户。这不是一次小范围测试，而是从实验室走向千万人日常使用的实际落地。很多用户在使用中反馈：“它不再像机器人那样卡顿、抢话，反而像一个耐心的伙伴。”

过去，语音助手大多采用“半双工”模式：你讲完，它才开口。这就像打电话时两人总在互相让话，一来一回拖慢节奏。Seeduplex 改变了这一切——它能同时处理听和说，哪怕你话没说完，它也能在你停顿的间隙插上一句“你是想问这个吗？”

实测中，它在嘈杂环境下的表现尤为突出。比如开车时导航播报和音乐混在一起，或者家人在旁边说话，它依然能准确识别你的声音和意图。误打断率和误回复率相比旧版下降了50%，不再是“你刚说一半它就答错”那种尴尬场景。

真正让人舒服的对话，不只靠内容，更靠节奏。Seeduplex 引入了动态判停技术，能精准判断你是真结束了，还是只是在思考。

以前，助手常常在你“嗯……”的时候就急着接话，让人觉得不耐烦。现在，它能多等250毫秒——这几乎是人眨眼的时间，却足以区分“思考中”和“说完了”。抢话的情况减少了40%，对话的自然感大幅提升。

工程上，团队用上了投机采样和模型量化技术，在保证响应速度的同时，让手机端运行更流畅。即便同时有几十人在线提问，也不会卡顿、延迟或掉线。据内部数据，用户通话满意度提升了8.34%，这是实打实的体验提升。

Seeduplex 的意义，不止于语音交互更顺了。它背后是一套全新的架构：语音、语义、环境信息被统一建模，让AI不再只是“复读机”，而是能理解上下文、感知环境的智能体。

接下来，团队计划引入视觉模态。也就是说，未来的豆包不仅能听你说话，还能看你的眼神、手势、甚至房间里的光线变化。比如你一边做饭一边问：“水开了吗？”它可能通过摄像头看到锅冒蒸汽，再结合你的语音，直接回答：“锅盖在动，水快开了。”

这不是科幻，而是正在发生的趋势。苹果、谷歌、Meta都在布局类似方向，但字节是目前唯一把全双工语音做到亿级用户规模的企业。Seeduplex 的上线，意味着中国AI语音交互正式进入“类人交互”时代。

你不需要等更新，打开最新版豆包App，直接说话试试。不用喊“豆包”，也不用等它“滴滴”提示，随时打断、随时追问，它都会自然接住。

项目主页：https://seed.bytedance.com/seeduplex