Cohere 推出开源语音识别模型 Transcribe,边缘设备也能实时听懂14种语言
2026年3月26日,AI公司Cohere正式发布名为Cohere Transcribe的开源语音识别模型。这款模型只有20亿参数,却能在手机、笔记本电脑、工业控制器等边缘设备上流畅运行,无需联网就能实时转录语音——这意味着你在地铁里、医院诊室里、工厂车间里,都能用本地设备直接把说话内容变成文字,不依赖云端,也不怕数据外泄。
与市面上动辄百亿参数、必须连服务器的语音模型不同,Transcribe专为“离线可用”设计。它支持中文、日语、法语、德语、西班牙语、阿拉伯语、俄语、葡萄牙语、意大利语、韩语、印地语、荷兰语、瑞典语和希伯来语共14种语言,覆盖全球主要经济体。根据Hugging Face最新ASR榜单,它在准确率和响应速度上已经超过了ElevenLabs的Scribe和阿里Qwen3,甚至在嘈杂环境下的识别表现优于苹果和谷歌的原生语音引擎。
更关键的是,它完全开源,采用Apache 2.0协议——这意味着开发者可以免费商用,随便改代码,也能集成进自己的App或硬件。一家做智能助听器的创业公司已经把Transcribe装进了耳机,让听障用户能实时看到对话文字;一家德国汽车厂商正在测试它在车内语音控制中的应用,司机说“导航去最近的加油站”,系统300毫秒内就能响应,不卡顿、不上传语音。
不只是听懂,更是智能交互的起点
Cohere过去以文本生成闻名,像ChatGPT那样写报告、写邮件是它的强项。但这次,他们把“听”和“说”打通了——Transcribe即将接入Cohere自家的AI智能体平台North,未来你可能不再需要打开多个App:你对着手机说一句“帮我查下上周会议的待办事项,再发个提醒给张经理”,系统不仅能听懂,还能自动翻出文档、生成摘要、发送通知,全程本地处理。
这背后是行业趋势的转变。Siri、Alexa这些年被诟病“听不清、反应慢、要联网”,而用户越来越厌倦“语音助手要连云端才能干活”的体验。Zoom在2025年底推出的AI Companion 3.0开始强调本地语音处理,IBM的Watson也悄悄在医疗设备中部署轻量模型。Cohere这次不是跟风,而是提前卡位——当越来越多的设备需要“听得清、反应快、不偷听”,轻量、开源、高性能的模型就成了刚需。
谁在用?银行、医生、工厂,都在悄悄换系统
一家国内头部银行的客服系统正在测试Transcribe,员工佩戴降噪耳机接听客户电话,语音实时转成文字,系统自动标记客户情绪、提取关键词,生成标准化服务记录。整个过程不传语音到云端,符合金融数据合规要求。
在三甲医院,医生用搭载Transcribe的平板记录病历,说一句“患者主诉头晕三天,伴恶心,无呕吐”,系统立刻生成结构化病历,省下半小时打字时间。护士长说:“以前录完音还得人工转,现在一说完就完事,还不用担心隐私泄露。”
在东莞一家智能工厂,工人通过语音指令控制机械臂:“夹取A3型号零件,放至传送带B”。系统在噪音环境下依然能准确识别,误识率比旧方案低62%。工程师说:“以前用按键,现在说话就行,效率翻倍。”
目前,Cohere已在GitHub开放模型权重和推理代码,配套提供Android、iOS、Linux和Windows的轻量SDK,开发者下载后10分钟就能跑起来。社区里已经有团队在做方言适配、多语种混说识别,甚至有人把它嵌入到树莓派上做家庭语音助手——不用连WiFi,不用注册账号,不用交钱。
这不是一个“AI炫技”的产品,而是一个让普通人、小公司、一线工作者真正用得上、用得安心的工具。Cohere没说“颠覆行业”,但它的代码,正在悄悄改变很多行业的日常。