微软开源VibeVoice:一款能听会说、本地跑得动的语音AI全家桶
微软最近把一个叫VibeVoice的语音AI项目开源了,不搞花架子,不靠云服务收费,直接把一套能听、能说、还能实时对话的模型全放到了GitHub上。短短几天,Star数冲到27K,不少开发者连夜测试,有人甚至用它做出了能直接在Mac上用的语音输入法。
这套工具最吸引人的地方是:你能把一小时的会议录音丢进去,它不光能转成文字,还能告诉你谁说了什么、什么时候说的、哪些专业术语没听清——而且不用联网,电脑本地就能跑。TTS部分更狠,一个模型能一口气生成90分钟的多人对话音频,四个角色自然交替,连停顿、语气转折都像真人说话。

VibeVoice-ASR-7B:一小时会议录音,一键转结构化文本
以前做会议记录,录完得手动分段、标注发言人、核对专有名词——VibeVoice-ASR-7B直接帮你全干了。你给它一段60分钟的音频,它输出的不只是文字,而是带时间戳、说话人标签、甚至可自定义热词的结构化结果。比如你做科技访谈,加个“LLM”“Transformer”进去,识别准确率立马提升。
它支持50多种语言,中文普通话、粤语、英语口音都能应付。有人拿它去转播客,结果发现连嘉宾咳嗽、翻纸页的停顿都保留得清清楚楚,不是那种机械式“断句式”转录。
更实用的是,社区已经出了个叫“Vibing”的输入法,装上就能在Windows和Mac上直接说话打字,不用按键盘。不少用户反馈,比系统自带的语音输入更准,尤其适合写代码、打长文时用——说一句“import pandas as pd”,它真能认出来。
VibeVoice-TTS-1.5B:90分钟多角色对话,像在听一部有声剧
传统TTS模型最多能模仿两个人说话,还容易“声线漂移”——说着说着,主角的声音突然变成配角。VibeVoice-TTS-1.5B不一样,它能连续生成90分钟的音频,同时让最多四个角色保持稳定音色,自然接话、抢话、沉默、叹气,完全不像机器人念稿。
有开发者拿它做了个“AI小说朗读器”,输入一段《三体》对话,它能自动区分叶文洁的低沉、罗辑的冷静、汪淼的焦虑,甚至在情绪高潮时加入轻微的呼吸声和语速变化。有人把生成的音频发到喜马拉雅,听众根本没发现是AI做的。
它的技术核心是“连续语音分词器”+低帧率设计(7.5Hz),听起来像“省着用算力”,但效果反而更好。生成速度也快,10分钟内容,普通电脑跑不到3分钟。
VibeVoice-Realtime-0.5B:300毫秒响应,直播和语音助手的救星
如果你做语音助手、直播配音、或者想给游戏NPC加实时对话功能,这个0.5B的小模型就是你想要的。它不求长,求快——你打一句文字,它300毫秒内就能吐出第一段语音,延迟比手机语音助手还低。
虽然只能生成10分钟左右的音频,但胜在稳定。有人用它做直播字幕配音,主播边说边改稿,AI实时跟上,音色和语调完全一致,观众完全听不出是AI在配。
它还支持多种英语口音(美式、英式、澳式)和少量多语言混说,比如中英夹杂的科技访谈场景,不用切模型,一个接口全搞定。
为什么它能火?不靠云,不收费,还能防滥用
这项目最实在的地方是:完全开源,MIT协议,模型权重直接放GitHub和Hugging Face,谁都能下。你不用买Azure订阅,不用交API费,连显卡要求都不高——RTX 3060就能跑TTS,ASR在CPU上也能跑通。
但微软没放任不管。项目曾因担心被拿来伪造声音短暂下架,后来加了两道保险:一是每段生成音频都嵌入人耳听不到的水印,二是播放时自动播报“本音频由AI生成”——既保护创作者,也避免被滥用。
现在社区已经有人在优化Apple Silicon版本,还有人把它接入Obsidian、Notion,做成“语音笔记助手”。如果你是内容创作者、播客制作者、无障碍工具开发者,或者只是想试试“用嘴打字”,这可能是你今年遇到最顺手的语音工具。
项目地址:https://github.com/microsoft/VibeVoice
想试试?直接去GitHub下载模型,用Colab免费跑一遍,10分钟就能听到你的第一段AI生成对话。别等别人做出来,你先用上。