网易有道“子曰4.0”开启全模态开源AI新纪元

“子曰”4.0正式开源：网易有道把大模型“搬”到了开发者桌面上

近日，网易有道发布了“子曰”大模型4.0版本，这次更新不只是一次功能升级——它直接把过去藏在公司内部的核心技术，一股脑儿开源了。文本、图像、语音，三者能一起理解、互相配合；翻译更自然了；推理更聪明了；最让人意外的是，连能“3秒克隆声音”的TTS引擎，也免费放了出来。

这不是“演示性开源”，也不是“选一部分开源”。这次，有道把多模态模型、语音合成引擎、优化后的思维链逻辑，全打包开源了。GitHub上已经能下载到完整代码和权重，连训练数据的处理方式都写得清清楚楚。不少开发者在社区里说：“这波操作，比某些大厂的‘开源’实在多了。”

“子曰”4.0最直观的改变，是它不再“单打独斗”。你发一段语音问它：“刚才那张图里的孩子在哪儿上学？”它能回你：“图片里是北京中关村一小的校服，结合你上一句说的‘他刚参加完奥数比赛’，推测可能是该校的竞赛班。”——这背后，是它把语音、图像、文字统一理解了，不是简单拼接。

在数学题和逻辑推理上，它在270亿参数规模下，已经能跟GPT-4o、Claude 3这些顶级模型掰手腕。国内某教育科技公司实测，它在奥数题和编程逻辑题上的准确率，比之前版本提升了近18%，尤其擅长拆解多步骤问题，不像有些模型“猜答案”。

翻译是它的老本行，这次彻底重做了底层结构。中文到英文不再“字对字硬翻”，比如“这事儿真够折腾的”能自动译成“It’s been a real headache”，而不是“this thing is very troublesome”。外语学习者反馈，现在听它读出来的句子，节奏和语调更像真人说话。

最炸裂的，是开源的TTS（语音合成）引擎。以前想让AI说话像你爸、像你老师、像某个主播？得花几万块买定制服务，还要交几个月的等待期。

现在，你只要上传一段3秒的音频——哪怕只是说了一句“你好”，它就能学会这个人的音色、语调、停顿习惯。做儿童教育App的团队，用它克隆了奶奶的声音，孩子一听就愿意听故事；做客服系统的公司，用它还原了老客户熟悉的语音，客户满意度直接涨了30%。

官方还提供了轻量版模型，手机端也能跑。有开发者在小米14上跑通了实时语音克隆，延迟不到500毫秒，比某些云服务还快。

国内大模型圈，多数还在比谁的参数更大、谁的API收费更贵。有道反其道而行——你用我的模型，不用交钱，不用排队，不用被绑在他们的云上。

他们甚至重构了模型的“思考方式”，让推理时的算力消耗砍掉近40%。这意味着，中小企业不用买昂贵的A100显卡，普通服务器就能跑起来。一位深圳的创业公司负责人说：“我们原来用GPT-4 API，一个月花12万，现在换成子曰4.0本地部署，成本降了九成。”

这不是一次技术秀，而是一场“生态围猎”。有道把教育场景打磨出来的语音、翻译、逻辑能力，打包成一套“开箱即用”的工具包，送给了开发者。谁用得多，谁就能做出更聪明的教育产品、更人性化的客服、更生动的AI助手——而这些应用，反过来又会让更多人用上“子曰”。

已经有团队在用它做：

有道没说“要做通用大模型”，但它做的事，比谁都更贴近真实场景。它知道，AI不是用来炫技的，是拿来解决具体问题的——而开源，是让好工具真正跑进千家万户最快的方式。

如果你是个开发者，想试试不花钱、不卡顿、能说话、能看图、还能推理的大模型——现在，你不需要等了。GitHub搜“Youdao-ZiYue-4.0”，代码和模型，都在那儿。