最新消息:关注人工智能 AI赋能新媒体运营

IBM 发布 Granite 4.0 1B:高效轻量多模态语音大模型

科技资讯 admin 浏览

IBM 推出 Granite 4.01B Speech:更小、更快、更实用的语音模型

IBM 刚刚发布了 Granite 4.01B Speech,一款专为真实场景打造的轻量级语音模型。它不搞花哨的参数堆砌,而是聚焦于让语音识别和翻译在手机、车载系统、工厂设备这些资源紧张的边缘设备上跑得又稳又快。

image.png

参数减半,性能反而更强

相比上一代,Granite 4.01B Speech 的参数量砍掉了一半,但实际表现却更出色。在公开的 OpenASR 评测中,它的英文语音转文字准确率排名第一,平均字错率(WER)低至 5.52%,比很多大模型还稳。特别值得一提的是,它现在能准确识别日语语音,这对做日语客服、跨境电商、海外设备运维的团队来说,是个实实在在的加分项。

关键功能,直击痛点

你是不是遇到过这样的情况:语音识别把“iPhone”听成“i phone”,把“AWS”误转成“A W S”?Granite 4.01B Speech 新增了“关键词偏置”功能——你可以提前告诉模型哪些词是重点,比如产品名、人名、技术术语,它就会优先识别这些词,转录准确率直接提升一截。这对金融、医疗、制造等行业特别有用,没人想看到关键数据被错转。

支持多语种互译,中文也能直接翻

除了识别,它还能直接做语音翻译。目前支持英语、法语、德语、西班牙语、葡萄牙语和日语之间的互译,更重要的是,它能处理英语 ? 中文(普通话)的双向翻译。这意味着你可以在现场会议中,用手机直接把英文发言实时翻译成中文,或者让海外客户用英语说话,系统自动生成中文字幕——不需要额外服务器,设备本地就能跑。

两阶段设计,灵活好用

它不是“黑盒子”。系统分两步走:先用轻量模块把声音转成文字,再用专门的语言模型做优化。这种设计的好处是,你可以自己调整流程——比如,如果只需要识别不需要翻译,就关掉翻译模块,省电又提速。开发者能像搭积木一样组合功能,适配不同设备和场景。

开源免费,部署简单

最让人惊喜的是,IBM 把这个模型完全开源了,采用 Apache 2.0 协议,商用无风险。你不需要申请权限,也不用交钱,直接从 Hugging Face 下载,用 Transformers 或 vLLM 就能在笔记本、树莓派、甚至安卓手机上跑起来。对中小企业、独立开发者、教育机构来说,这几乎是目前最接地气的高性能语音模型。

项目地址:https://huggingface.co/ibm-granite/granite-4.0-1b-speech

如果你正在找一个不依赖云端、不烧钱、不卡顿,还能准确听懂中文和日语的语音模型,Granite 4.01B Speech 可能是你最近最该试试的工具。