Cohere开源轻量语音模型Transcribe，挑战英伟达主导地位

Cohere 推出开源语音识别模型 Transcribe，边缘设备也能实时听懂14种语言

2026年3月26日，AI公司Cohere正式发布名为Cohere Transcribe的开源语音识别模型。这款模型只有20亿参数，却能在手机、笔记本电脑、工业控制器等边缘设备上流畅运行，无需联网就能实时转录语音——这意味着你在地铁里、医院诊室里、工厂车间里，都能用本地设备直接把说话内容变成文字，不依赖云端，也不怕数据外泄。

与市面上动辄百亿参数、必须连服务器的语音模型不同，Transcribe专为“离线可用”设计。它支持中文、日语、法语、德语、西班牙语、阿拉伯语、俄语、葡萄牙语、意大利语、韩语、印地语、荷兰语、瑞典语和希伯来语共14种语言，覆盖全球主要经济体。根据Hugging Face最新ASR榜单，它在准确率和响应速度上已经超过了ElevenLabs的Scribe和阿里Qwen3，甚至在嘈杂环境下的识别表现优于苹果和谷歌的原生语音引擎。

更关键的是，它完全开源，采用Apache 2.0协议——这意味着开发者可以免费商用，随便改代码，也能集成进自己的App或硬件。一家做智能助听器的创业公司已经把Transcribe装进了耳机，让听障用户能实时看到对话文字；一家德国汽车厂商正在测试它在车内语音控制中的应用，司机说“导航去最近的加油站”，系统300毫秒内就能响应，不卡顿、不上传语音。

不只是听懂，更是智能交互的起点

Cohere过去以文本生成闻名，像ChatGPT那样写报告、写邮件是它的强项。但这次，他们把“听”和“说”打通了——Transcribe即将接入Cohere自家的AI智能体平台North，未来你可能不再需要打开多个App：你对着手机说一句“帮我查下上周会议的待办事项，再发个提醒给张经理”，系统不仅能听懂，还能自动翻出文档、生成摘要、发送通知，全程本地处理。

这背后是行业趋势的转变。Siri、Alexa这些年被诟病“听不清、反应慢、要联网”，而用户越来越厌倦“语音助手要连云端才能干活”的体验。Zoom在2025年底推出的AI Companion 3.0开始强调本地语音处理，IBM的Watson也悄悄在医疗设备中部署轻量模型。Cohere这次不是跟风，而是提前卡位——当越来越多的设备需要“听得清、反应快、不偷听”，轻量、开源、高性能的模型就成了刚需。

谁在用？银行、医生、工厂，都在悄悄换系统

一家国内头部银行的客服系统正在测试Transcribe，员工佩戴降噪耳机接听客户电话，语音实时转成文字，系统自动标记客户情绪、提取关键词，生成标准化服务记录。整个过程不传语音到云端，符合金融数据合规要求。

在三甲医院，医生用搭载Transcribe的平板记录病历，说一句“患者主诉头晕三天，伴恶心，无呕吐”，系统立刻生成结构化病历，省下半小时打字时间。护士长说：“以前录完音还得人工转，现在一说完就完事，还不用担心隐私泄露。”

在东莞一家智能工厂，工人通过语音指令控制机械臂：“夹取A3型号零件，放至传送带B”。系统在噪音环境下依然能准确识别，误识率比旧方案低62%。工程师说：“以前用按键，现在说话就行，效率翻倍。”

目前，Cohere已在GitHub开放模型权重和推理代码，配套提供Android、iOS、Linux和Windows的轻量SDK，开发者下载后10分钟就能跑起来。社区里已经有团队在做方言适配、多语种混说识别，甚至有人把它嵌入到树莓派上做家庭语音助手——不用连WiFi，不用注册账号，不用交钱。

这不是一个“AI炫技”的产品，而是一个让普通人、小公司、一线工作者真正用得上、用得安心的工具。Cohere没说“颠覆行业”，但它的代码，正在悄悄改变很多行业的日常。

CB科技站

Cohere开源轻量语音模型Transcribe，挑战英伟达主导地位

Cohere 推出开源语音识别模型 Transcribe，边缘设备也能实时听懂14种语言

不只是听懂，更是智能交互的起点

谁在用？银行、医生、工厂，都在悄悄换系统

与本文相关的文章