最新消息:关注人工智能 AI赋能新媒体运营

Meta开源支持1600+语言的全球最强语音识别系统

科技资讯 admin 浏览

Meta发布Omnilingual ASR:覆盖1600+语言,500种为首次被AI识别

Meta正式推出全球规模最大的多语言语音识别系统——Omnilingual Automatic Speech Recognition(全语自动语音识别,简称Omnilingual ASR)。这一系统一举覆盖超过1600种语言,其中高达500种语言此前从未被任何主流ASR系统支持过,包括非洲的曼丁哥语(Mande)、太平洋岛国的托克劳语(Tokelauan)、南美亚马逊地区的阿瓦语(Awa)等长期被技术忽视的濒危方言。

三大开源核心组件,彻底打破语言数据壁垒

Omnilingual ASR并非单一模型,而是一整套开放的语音技术生态,包含三大关键组件:

  • Omnilingual ASR 模型套件:提供从3亿到70亿参数的多个版本,适配不同算力环境,可精准识别1600+种语言的口语内容,即使在嘈杂环境或口音浓重的语音中表现依然稳定。
  • Omnilingual w2v 2.0:一个70亿参数的通用语音表征模型,不仅能用于语音识别,还可迁移至语音合成、声纹识别、情绪分析等任务,为语音AI研究提供全新基础架构。
  • Omnilingual ASR 语料库:包含超过1200小时的高质量语音-文本对,覆盖350种资源极度匮乏的语言,所有数据均经本地母语者校对,确保文化准确性与语言真实性。

开源+易用,开发者5分钟即可接入

Meta此次彻底开放所有技术资产——模型权重、训练代码、语料数据全部在GitHub上免费公开,无任何使用限制。研究者、教育机构、非营利组织甚至个人开发者均可自由下载、修改、商用。

安装仅需一行命令:

pip install omnilingual-asr

随后即可通过几行Python代码实现语音转文字:

from omnilingual_asr import transcribe
text = transcribe("audio_file.wav", language="swahili")
print(text)

系统支持Windows、macOS、Linux,甚至可在树莓派等边缘设备上运行。官方提供Docker镜像和ONNX导出工具,方便部署到手机App、智能音箱或远程服务器。

性能惊艳:78%语言CER低于10%,新增语言只需几十组样本

在权威评测中,Omnilingual ASR 7B版本在1600种语言中,有78%实现了字符错误率(CER)低于10%,媲美英语、中文等主流语言的商业级系统。更惊人的是,它支持“零样本快速适配”——仅需提供50组(每组约5秒)目标语言的语音与文本配对样本,系统就能在数小时内完成微调,无需昂贵的标注团队或GPU集群。

这一特性让偏远地区社区、语言复兴组织和小型创业公司得以低成本地为母语开发语音助手、教育工具或医疗热线,真正实现“技术赋能草根语言”。

不只是技术突破,更是一场语言平权运动

“我们不是在训练一个更好的语音识别器,而是在为被遗忘的语言重建数字存在。”Meta AI首席科学家Joelle Pineau在发布会上表示。

过去,语音AI几乎只服务于全球前20大语言,占世界人口80%以上的少数语言群体长期处于“数字沉默”状态。Omnilingual ASR的发布,首次让非洲、大洋洲、西伯利亚、安第斯山脉等地的母语者,能用自己从小说的方言与AI对话、搜索信息、录制故事、保存家族口述历史。

目前,已有来自尼日利亚、巴布亚新几内亚、秘鲁的12个非营利组织与Meta达成合作,利用该系统为当地学校开发母语语音学习应用。一位来自喀麦隆的教师反馈:“我的学生第一次能用祖母讲的Bamum语和AI聊天,他们眼睛亮了。”

未来规划:支持长音频、实时转录与多语混讲

当前版本支持最长40秒音频,适用于短对话、语音笔记、问卷录音等场景。Meta已宣布将在2025年Q3前开放支持长达5分钟的连续语音转录,并计划推出“多语混合识别”功能——允许用户自然切换语言(如中英夹杂、西班牙语+土著语),系统可自动识别并分段输出。

此外,团队正在与联合国教科文组织合作,将Omnilingual ASR语料库纳入“世界语言地图”数字档案,为全球语言保护提供永久性技术备份。

立即参与,让每一种声音都被听见

无论你是开发者、语言学家、教育工作者,还是只是关心文化多样性的普通人,都可以立即行动:

  • 访问GitHub:https://github.com/facebookresearch/omnilingual-asr
  • 下载模型与数据集,尝试识别你熟悉的方言
  • 上传一段母语录音,帮助系统优化对小语种的识别
  • 在社交媒体分享#OmnilingualASR,让更多人关注语言多样性

科技不应只服务于最响亮的声音。这一次,Meta选择为沉默者按下播放键。