IBM 发布 Granite 4.0 1B：高效轻量多模态语音大模型

IBM 推出 Granite 4.01B Speech：更小、更快、更实用的语音模型

IBM 刚刚发布了 Granite 4.01B Speech，一款专为真实场景打造的轻量级语音模型。它不搞花哨的参数堆砌，而是聚焦于让语音识别和翻译在手机、车载系统、工厂设备这些资源紧张的边缘设备上跑得又稳又快。

参数减半，性能反而更强

相比上一代，Granite 4.01B Speech 的参数量砍掉了一半，但实际表现却更出色。在公开的 OpenASR 评测中，它的英文语音转文字准确率排名第一，平均字错率（WER）低至 5.52%，比很多大模型还稳。特别值得一提的是，它现在能准确识别日语语音，这对做日语客服、跨境电商、海外设备运维的团队来说，是个实实在在的加分项。

关键功能，直击痛点

你是不是遇到过这样的情况：语音识别把“iPhone”听成“i phone”，把“AWS”误转成“A W S”？Granite 4.01B Speech 新增了“关键词偏置”功能——你可以提前告诉模型哪些词是重点，比如产品名、人名、技术术语，它就会优先识别这些词，转录准确率直接提升一截。这对金融、医疗、制造等行业特别有用，没人想看到关键数据被错转。

支持多语种互译，中文也能直接翻

除了识别，它还能直接做语音翻译。目前支持英语、法语、德语、西班牙语、葡萄牙语和日语之间的互译，更重要的是，它能处理英语 ? 中文（普通话）的双向翻译。这意味着你可以在现场会议中，用手机直接把英文发言实时翻译成中文，或者让海外客户用英语说话，系统自动生成中文字幕——不需要额外服务器，设备本地就能跑。

两阶段设计，灵活好用

它不是“黑盒子”。系统分两步走：先用轻量模块把声音转成文字，再用专门的语言模型做优化。这种设计的好处是，你可以自己调整流程——比如，如果只需要识别不需要翻译，就关掉翻译模块，省电又提速。开发者能像搭积木一样组合功能，适配不同设备和场景。

开源免费，部署简单

最让人惊喜的是，IBM 把这个模型完全开源了，采用 Apache 2.0 协议，商用无风险。你不需要申请权限，也不用交钱，直接从 Hugging Face 下载，用 Transformers 或 vLLM 就能在笔记本、树莓派、甚至安卓手机上跑起来。对中小企业、独立开发者、教育机构来说，这几乎是目前最接地气的高性能语音模型。

项目地址：https://huggingface.co/ibm-granite/granite-4.0-1b-speech

如果你正在找一个不依赖云端、不烧钱、不卡顿，还能准确听懂中文和日语的语音模型，Granite 4.01B Speech 可能是你最近最该试试的工具。

CB科技站