阿里通义发布Fun-ASR 1.5：支持30种语言与方言，精准转写古诗

通义Fun-ASR1.5来了：能听懂方言、念古诗、甚至辨出爷爷的口音

你有没有试过让智能语音助手听你用四川话讲“巴适得板”，结果它回你“没听清”？或者让AI转写奶奶念的《静夜思》，结果把“举头望明月”听成“举头望明玉”？这些尴尬，现在终于有了解法。

4月20日，阿里通义实验室低调发布了一款真正“听得懂人话”的语音识别模型——Fun-ASR1.5。它不是那种只会念标准普通话的“考试型AI”，而是能听懂你家楼下卖煎饼的山东大叔、你外婆说的潮州话、甚至你朋友在KTV飙粤语版《青藏高原》时的跑调歌词。

这款模型支持全球30种主流语言，覆盖汉语七大方言——粤语、闽南语、吴语、湘语、赣语、客家话、西南官话，还专门训练了20多种地方口音，比如东北的“整”、广东的“咩”、成都的“要得”、温州的“啥个”。不是简单加了几个关键词，而是从声学特征到语义逻辑，重新训练了一整套听音系统。实测中，它对“我今天吃了三碗饭”和“我今朝食咗三碗饭”的区分准确率超过98%。

最让人意外的是，它居然能听懂古诗词吟诵。不是按现代朗读节奏，而是跟着老一辈那种拖腔、顿挫、气声交错的念法——比如“床前明月光”被念成“床—前—明—月—光……”的悠长腔调，Fun-ASR1.5也能准确转成文字，误差率比上一代模型降低近60%。这背后，是团队采集了上百小时的非遗传承人吟诵录音，甚至请来北大中文系教授参与标注韵律节奏。

不只是听懂，还能帮你在工作中省下几十小时

目前，Fun-ASR1.5已上线阿里云百炼平台，开放API调用。不是概念演示，是真能用在日常业务里。

教育行业：老师用它自动转录课堂录音，方言区学生发言也能完整记录，作业批改效率提升70%；

传媒领域：记者在外采访，用手机录下村民用闽南语讲述非遗故事，回办公室一键生成带标点的文稿，省去人工逐字听写；

金融客服：银行热线里，老年客户说“我要把存折里的钱提出来，给孙儿买书”，系统能准确识别“存折”“提钱”“买书”三个关键信息，自动触发服务流程，不再让老人反复重说；

文化机构：故宫、国家图书馆正在测试用它转录老录音带里的口述历史——那些模糊、断续、带着岁月杂音的讲述，AI居然能还原出85%以上的原始内容。

一位使用该模型的纪录片导演说：“以前剪辑老采访素材，光听录音就要花三周。现在，AI一小时出初稿，我只需要改错别字和标点。”

这不是“下一个AI语音模型”，而是第一个真正把“人话”当人话来听的系统。它不追求炫技，只解决一个最朴素的问题：别再让技术，成为人和人之间沟通的障碍。

多语言支持语音识别 Fun-ASR1.5 古诗词转写

CB科技站

阿里通义发布Fun-ASR 1.5：支持30种语言与方言，精准转写古诗

通义Fun-ASR1.5来了：能听懂方言、念古诗、甚至辨出爷爷的口音

不只是听懂，还能帮你在工作中省下几十小时

与本文相关的文章