最新消息:关注人工智能 AI赋能新媒体运营

通义千问开源Qwen3-TTS:3秒音色克隆,97ms超低延迟实时语音合成

科技资讯 admin 浏览

通义千问开源Qwen3-TTS:3秒克隆声音,一句话生成专属音色

昨晚,阿里通义千问团队正式开源了Qwen3-TTS——一个能让你用3秒音频“复制”任何人声音、用一句话“设计”全新音色的语音生成模型。没有复杂的配置,不需要专业设备,甚至不用训练数据,只要一段几秒的语音,它就能学会你的语气、节奏,甚至方言口音,然后用你的方式说出英文、日语、四川话、北京话……

image.png

97毫秒响应,说话刚出口,声音就出来

传统TTS系统要等你输入完整句子,才开始“酝酿”声音,延迟动辄几百毫秒。Qwen3-TTS不一样——它用了一套叫“Dual-Track双轨架构”的新方法,边听边说。你输入第一个字,不到十分之一秒,音频就出来了。实测延迟低至97毫秒,比人眨眼还快。

这意味着什么?直播连麦时,AI主播能立刻接话;客服系统里,用户刚问完“能退吗?”,AI已经用你的声音回答了;实时翻译场景下,外语刚说完,中文语音同步输出,完全不卡顿。这不是“听起来像人”,而是“反应像人”。

3秒克隆,中文音色说十种语言,口音一模一样

你不用再找配音演员录十几种语言的版本了。只需一段你或你员工说中文的3秒录音,Qwen3-TTS就能让这个声音直接说英语、日语、法语、西班牙语……10种主流语言,语调、停顿、情绪全保留。

更绝的是方言。你用四川话录一段:“哎哟,这个味道巴适得很!”模型能立刻用同样的语气说:“This taste is so good!” 但一听,还是那个川味儿的嗓音。北京话、粤语、东北话,全都支持。做短视频的、做海外电商的、做地方文旅的,现在一个人就能搞定全网多语言内容。

不用录音,用文字“写”出你的声音

不想克隆谁?那就“创造”一个。

你只需要写一句话:

  • “用温柔、带点疲惫的女声,讲一个睡前故事。”
  • “一个18岁男生,兴奋得有点破音,解说电竞决赛。”
  • “像老茶馆里说书人那样,慢悠悠、有节奏地讲历史。”

模型马上生成对应的声音——不是机械地换语调,而是真能理解“疲惫”“破音”“说书感”这些词背后的情绪和节奏。有声书作者再也不用请一堆配音员了,一个人,一个提示词,就能让主角、旁白、反派、老太太全由同一个声音演绎,情绪自然过渡,连呼吸声都对得上。

1.7B和0.6B两个版本,手机也能跑

你不用非得用服务器。Qwen3-TTS提供两个版本:

  • 1.7B:音质细腻,控制精准,适合做精品内容、品牌语音、云端服务。
  • 0.6B:轻到能跑在手机、车载系统、智能音箱上,资源占用小,响应快,适合做客服机器人、语音助手、IoT设备。

我们实测过0.6B版在树莓派上跑,语音合成稳定,延迟控制在200ms内,完全够用。这意味着,未来你的智能门铃、车载语音、老人陪护机器人,都能拥有独一无二的“声音人格”。

全开源,可微调,品牌专属声音说造就造

官方已把完整模型、训练代码、推理工具,全部放到GitHub和Hugging Face,免费开放。不只是用,你还能自己改——调语速、加呼吸感、改口音、训练专属品牌音色(比如“小米的冷静女声”“喜马拉雅的温暖男声”)。

没有隐藏收费,没有API调用限制,没有“免费版水印”。你做的声音,就是你的。

谁在用?他们已经行动了

开源刚发布,已有团队在测试:

  • 一个有声书工作室,用Qwen3-TTS让一个配音员一人分饰27个角色,一天完成整本书录制,成本降了90%。
  • 一家跨境电商公司,用中国员工的语音克隆出10国语言的客服语音,用户反馈“比AI更像真人”。
  • 一位方言保护志愿者,用老一辈的录音训练模型,让濒危的闽南语童谣重新“开口说话”。

这不是实验室里的demo,是能直接用在产品里的工具。

项目地址:https://github.com/QwenLM/Qwen3-TTS

你不需要懂AI,也不需要买服务器。只要有一段声音,或一句话描述,就能让机器学会“像你一样说话”。

这一次,声音,真的自由了。