最新消息:关注人工智能 AI赋能新媒体运营

Google发布非洲语音数据集WAXAL,推动非洲AI数据主权建设

科技资讯 admin 浏览

Google 推出非洲语音数据集 WAXAL,让本地语言真正“说自己的话”

最近,Google 在非洲正式发布了一个名为 WAXAL 的语音数据集,覆盖阿乔利语、豪萨语、卢干达语、约鲁巴语等 21 种非洲本土语言。这不是又一个“外国公司收集非洲声音”的老故事——这次,数据的主人,是非洲自己。

过去几十年,非洲的语言在语音识别系统里总是“听不清”“答非所问”。一个简单的语音指令,比如“叫救护车”或“提醒我吃药”,在英语系统里一秒响应,在豪萨语或卢干达语里却可能完全失效。这不是技术不够,而是根本没人认真做过这些语言的数据积累。WAXAL 的出现,第一次让这些语言有了真正属于自己的“声音档案”。

数据不归 Google,归非洲的大学和社区

最让人意外的,不是数据量有多大,而是谁拥有它。WAXAL 的所有数据,所有权完全交给了参与合作的非洲本地机构——加纳大学、乌干达麦克雷雷大学、尼日利亚伊巴丹大学等,Google 不保留任何控制权。这意味着,这些数据可以自由用于教学、医疗、农业、金融等本地项目,不需要申请许可,也不用担心被商业公司拿去垄断。

“我们不是在被研究,我们是在建设。”加纳大学人工智能实验室的负责人阿玛·阿多博士说,“以前我们只能用英语或法语的数据训练模型,结果系统根本不懂我们怎么说话。现在,我们可以自己决定怎么用这些声音。”

1.1万小时录音,不只是数字,是真实的生活

这个数据集包含超过 1.1 万小时的语音录音,相当于一个人连续不停说话 450 多天。其中约 1250 小时是经过人工校对的转写文本,其余则是可用于语音合成(TTS)的高质量录音——比如老人念育儿提醒、市场摊主喊价、学生朗读课文、母亲唱摇篮曲。这些声音不是来自电话客服中心,而是来自街头、学校、诊所和家里的真实场景。

为了确保准确性,团队花了近两年时间,与本地语言专家、教师、社区志愿者合作,逐字校对发音。有些语言,比如约鲁巴语,有声调变化,一个词“òkù”和“ókù”意思完全不同,但传统拼音根本标不出声调。团队专门开发了简易标注工具,让非技术人员也能参与标注。

已经在用:孕产妇健康、农业咨询、儿童识字

数据一开放,应用就来了。加纳大学的团队正在开发一个语音助手,帮助农村孕妇记住产检时间,用母语播报提醒:“你明天要去卫生站做血检,别忘了带你的母子健康卡。”

在尼日利亚,一个非营利组织正用 WAXAL 训练系统,帮农民用约鲁巴语问:“今年雨季什么时候开始?”“玉米种子哪里买最便宜?”

在乌干达,小学老师用这个数据集制作了能“读故事”的语音教材,孩子们不用识字,也能听懂课本内容。一位老师说:“以前我们得一个字一个字教,现在孩子点一下按钮,故事就自己讲出来了。”

未来:27种语言,不只是数据,是话语权

Google 表示,下一步会把语言数量扩展到 27 种,包括更小众的如基库尤语、林加拉语等。但更重要的是,他们承诺:未来所有类似项目,都将遵循“数据主权归本地”这一原则。

这不是一次技术捐赠,而是一次权力的转移。非洲不再只是“数据提供者”,而是 AI 基础设施的共建者、所有者和决策者。当一个母亲用母语对手机说“帮我联系医生”,系统能听懂、能回应,那才是真正的技术进步。

WAXAL 的意义,不在于它有多“大”,而在于它让沉默的声音,终于被听见了。