最新消息:关注人工智能 AI赋能新媒体运营

Meta推出Omnilingual ASR:支持1600多种语言的全球语音AI迈入新时代

科技资讯 admin 浏览

Meta于周一(11月10日)推出全新的Omnilingual ASR(全语言自动语音识别系统),一次性支持超过1600种语言,成为目前全球语音AI覆盖最广的系统。该技术由Meta FAIR(基础人工智能研究)团队研发,并同步开源模型与语料,被视为语音技术全球化的重要突破。

Meta指出,长期以来语音识别技术主要集中在英语、中文、西班牙语等高资源语言,依赖大量人工标注数据,导致全球许多弱势语言在数字化进程中被长期忽视。这种差距严重限制了语音AI的全球普及性,而Omnilingual ASR正是为解决这一根本问题而设计。

在Omnilingual ASR支持的1600多种语言中,包含249种高资源语言(每种语言至少50小时语料)、881种中资源语言(10至50小时),以及546种低资源语言(少于10小时)。也就是说,超过八成的语言属于中低资源类型,是传统ASR最难处理的领域。当采用当前最先进的7B-LLM-ASR模型时,高资源和中资源语言中有95%的语音识别字符错误率(CER)低于10%;而在语料稀缺的546种低资源语言中,也有195种(占36%)达到CER低于10%。总体而言,在1600多种语言中,78%的语言CER低于10%,显示出模型具备极强的泛化能力。

为支持如此大规模的语言覆盖,Meta将语音基础模型wav2vec 2.0扩展至70亿参数(7B),并提供CTC(连接时序分类)和基于Transformer架构的大型语言模型解码器(LLM-ASR)两种解码结构。后者特别强化了长尾语言的表现,使模型即使在语料极少的情况下仍能保持可用的准确度。

另一项关键突破是“自带语言”能力。用户只需提供少量语音与文字对应的样本,即可将系统扩展至尚未支持的语言,其核心依赖于大型语言模型的上下文学习能力,使语音识别能够以极低门槛覆盖更多语言社群。

Meta同步发布Omnilingual ASR语料库,包含350种弱势语言,均由母语者录制,是目前规模最大的超低资源语音数据集。所有模型采用Apache 2.0许可证开源,语料采用CC-BY协议发布,并与Mozilla Common Voice、Lanfrica等组织合作,确保数据更贴近当地真实语境。

Meta表示,Omnilingual ASR的愿景是构建全球性的语音基础设施,让语音AI不再仅服务于主流语言,而是真正惠及全球所有语言与文化群体。