通义千问开源Qwen3-TTS：3秒音色克隆，97ms超低延迟实时语音合成

通义千问开源Qwen3-TTS：3秒克隆声音，一句话生成专属音色

昨晚，阿里通义千问团队正式开源了Qwen3-TTS——一个能让你用3秒音频“复制”任何人声音、用一句话“设计”全新音色的语音生成模型。没有复杂的配置，不需要专业设备，甚至不用训练数据，只要一段几秒的语音，它就能学会你的语气、节奏，甚至方言口音，然后用你的方式说出英文、日语、四川话、北京话……

传统TTS系统要等你输入完整句子，才开始“酝酿”声音，延迟动辄几百毫秒。Qwen3-TTS不一样——它用了一套叫“Dual-Track双轨架构”的新方法，边听边说。你输入第一个字，不到十分之一秒，音频就出来了。实测延迟低至97毫秒，比人眨眼还快。

这意味着什么？直播连麦时，AI主播能立刻接话；客服系统里，用户刚问完“能退吗？”，AI已经用你的声音回答了；实时翻译场景下，外语刚说完，中文语音同步输出，完全不卡顿。这不是“听起来像人”，而是“反应像人”。

你不用再找配音演员录十几种语言的版本了。只需一段你或你员工说中文的3秒录音，Qwen3-TTS就能让这个声音直接说英语、日语、法语、西班牙语……10种主流语言，语调、停顿、情绪全保留。

更绝的是方言。你用四川话录一段：“哎哟，这个味道巴适得很！”模型能立刻用同样的语气说：“This taste is so good!” 但一听，还是那个川味儿的嗓音。北京话、粤语、东北话，全都支持。做短视频的、做海外电商的、做地方文旅的，现在一个人就能搞定全网多语言内容。

不想克隆谁？那就“创造”一个。

你只需要写一句话：

模型马上生成对应的声音——不是机械地换语调，而是真能理解“疲惫”“破音”“说书感”这些词背后的情绪和节奏。有声书作者再也不用请一堆配音员了，一个人，一个提示词，就能让主角、旁白、反派、老太太全由同一个声音演绎，情绪自然过渡，连呼吸声都对得上。

你不用非得用服务器。Qwen3-TTS提供两个版本：

我们实测过0.6B版在树莓派上跑，语音合成稳定，延迟控制在200ms内，完全够用。这意味着，未来你的智能门铃、车载语音、老人陪护机器人，都能拥有独一无二的“声音人格”。

官方已把完整模型、训练代码、推理工具，全部放到GitHub和Hugging Face，免费开放。不只是用，你还能自己改——调语速、加呼吸感、改口音、训练专属品牌音色（比如“小米的冷静女声”“喜马拉雅的温暖男声”）。

没有隐藏收费，没有API调用限制，没有“免费版水印”。你做的声音，就是你的。

开源刚发布，已有团队在测试：

这不是实验室里的demo，是能直接用在产品里的工具。

项目地址：https://github.com/QwenLM/Qwen3-TTS

你不需要懂AI，也不需要买服务器。只要有一段声音，或一句话描述，就能让机器学会“像你一样说话”。

这一次，声音，真的自由了。