最新消息:关注人工智能 AI赋能新媒体运营

阿里通义发布Fun-ASR 1.5:支持30种语言与方言,精准转写古诗

科技资讯 admin 浏览

通义Fun-ASR1.5来了:能听懂方言、念古诗、甚至辨出爷爷的口音

你有没有试过让智能语音助手听你用四川话讲“巴适得板”,结果它回你“没听清”?或者让AI转写奶奶念的《静夜思》,结果把“举头望明月”听成“举头望明玉”?这些尴尬,现在终于有了解法。

4月20日,阿里通义实验室低调发布了一款真正“听得懂人话”的语音识别模型——Fun-ASR1.5。它不是那种只会念标准普通话的“考试型AI”,而是能听懂你家楼下卖煎饼的山东大叔、你外婆说的潮州话、甚至你朋友在KTV飙粤语版《青藏高原》时的跑调歌词。

这款模型支持全球30种主流语言,覆盖汉语七大方言——粤语、闽南语、吴语、湘语、赣语、客家话、西南官话,还专门训练了20多种地方口音,比如东北的“整”、广东的“咩”、成都的“要得”、温州的“啥个”。不是简单加了几个关键词,而是从声学特征到语义逻辑,重新训练了一整套听音系统。实测中,它对“我今天吃了三碗饭”和“我今朝食咗三碗饭”的区分准确率超过98%。

最让人意外的是,它居然能听懂古诗词吟诵。不是按现代朗读节奏,而是跟着老一辈那种拖腔、顿挫、气声交错的念法——比如“床前明月光”被念成“床—前—明—月—光……”的悠长腔调,Fun-ASR1.5也能准确转成文字,误差率比上一代模型降低近60%。这背后,是团队采集了上百小时的非遗传承人吟诵录音,甚至请来北大中文系教授参与标注韵律节奏。

不只是听懂,还能帮你在工作中省下几十小时

目前,Fun-ASR1.5已上线阿里云百炼平台,开放API调用。不是概念演示,是真能用在日常业务里。

教育行业:老师用它自动转录课堂录音,方言区学生发言也能完整记录,作业批改效率提升70%;

传媒领域:记者在外采访,用手机录下村民用闽南语讲述非遗故事,回办公室一键生成带标点的文稿,省去人工逐字听写;

金融客服:银行热线里,老年客户说“我要把存折里的钱提出来,给孙儿买书”,系统能准确识别“存折”“提钱”“买书”三个关键信息,自动触发服务流程,不再让老人反复重说;

文化机构:故宫、国家图书馆正在测试用它转录老录音带里的口述历史——那些模糊、断续、带着岁月杂音的讲述,AI居然能还原出85%以上的原始内容。

一位使用该模型的纪录片导演说:“以前剪辑老采访素材,光听录音就要花三周。现在,AI一小时出初稿,我只需要改错别字和标点。”

这不是“下一个AI语音模型”,而是第一个真正把“人话”当人话来听的系统。它不追求炫技,只解决一个最朴素的问题:别再让技术,成为人和人之间沟通的障碍。