微软开源VibeVoice：支持90分钟多说话人语音处理，GitHub获27K星

微软开源VibeVoice：一款能听会说、本地跑得动的语音AI全家桶

微软最近把一个叫VibeVoice的语音AI项目开源了，不搞花架子，不靠云服务收费，直接把一套能听、能说、还能实时对话的模型全放到了GitHub上。短短几天，Star数冲到27K，不少开发者连夜测试，有人甚至用它做出了能直接在Mac上用的语音输入法。

这套工具最吸引人的地方是：你能把一小时的会议录音丢进去，它不光能转成文字，还能告诉你谁说了什么、什么时候说的、哪些专业术语没听清——而且不用联网，电脑本地就能跑。TTS部分更狠，一个模型能一口气生成90分钟的多人对话音频，四个角色自然交替，连停顿、语气转折都像真人说话。

以前做会议记录，录完得手动分段、标注发言人、核对专有名词——VibeVoice-ASR-7B直接帮你全干了。你给它一段60分钟的音频，它输出的不只是文字，而是带时间戳、说话人标签、甚至可自定义热词的结构化结果。比如你做科技访谈，加个“LLM”“Transformer”进去，识别准确率立马提升。

它支持50多种语言，中文普通话、粤语、英语口音都能应付。有人拿它去转播客，结果发现连嘉宾咳嗽、翻纸页的停顿都保留得清清楚楚，不是那种机械式“断句式”转录。

更实用的是，社区已经出了个叫“Vibing”的输入法，装上就能在Windows和Mac上直接说话打字，不用按键盘。不少用户反馈，比系统自带的语音输入更准，尤其适合写代码、打长文时用——说一句“import pandas as pd”，它真能认出来。

传统TTS模型最多能模仿两个人说话，还容易“声线漂移”——说着说着，主角的声音突然变成配角。VibeVoice-TTS-1.5B不一样，它能连续生成90分钟的音频，同时让最多四个角色保持稳定音色，自然接话、抢话、沉默、叹气，完全不像机器人念稿。

有开发者拿它做了个“AI小说朗读器”，输入一段《三体》对话，它能自动区分叶文洁的低沉、罗辑的冷静、汪淼的焦虑，甚至在情绪高潮时加入轻微的呼吸声和语速变化。有人把生成的音频发到喜马拉雅，听众根本没发现是AI做的。

它的技术核心是“连续语音分词器”+低帧率设计（7.5Hz），听起来像“省着用算力”，但效果反而更好。生成速度也快，10分钟内容，普通电脑跑不到3分钟。

如果你做语音助手、直播配音、或者想给游戏NPC加实时对话功能，这个0.5B的小模型就是你想要的。它不求长，求快——你打一句文字，它300毫秒内就能吐出第一段语音，延迟比手机语音助手还低。

虽然只能生成10分钟左右的音频，但胜在稳定。有人用它做直播字幕配音，主播边说边改稿，AI实时跟上，音色和语调完全一致，观众完全听不出是AI在配。

它还支持多种英语口音（美式、英式、澳式）和少量多语言混说，比如中英夹杂的科技访谈场景，不用切模型，一个接口全搞定。

这项目最实在的地方是：完全开源，MIT协议，模型权重直接放GitHub和Hugging Face，谁都能下。你不用买Azure订阅，不用交API费，连显卡要求都不高——RTX 3060就能跑TTS，ASR在CPU上也能跑通。

但微软没放任不管。项目曾因担心被拿来伪造声音短暂下架，后来加了两道保险：一是每段生成音频都嵌入人耳听不到的水印，二是播放时自动播报“本音频由AI生成”——既保护创作者，也避免被滥用。

现在社区已经有人在优化Apple Silicon版本，还有人把它接入Obsidian、Notion，做成“语音笔记助手”。如果你是内容创作者、播客制作者、无障碍工具开发者，或者只是想试试“用嘴打字”，这可能是你今年遇到最顺手的语音工具。

项目地址：https://github.com/microsoft/VibeVoice

想试试？直接去GitHub下载模型，用Colab免费跑一遍，10分钟就能听到你的第一段AI生成对话。别等别人做出来，你先用上。