最新消息:关注人工智能 AI赋能新媒体运营

网易有道“子曰4.0”开启全模态开源AI新纪元

科技资讯 admin 浏览

“子曰”4.0正式开源:网易有道把大模型“搬”到了开发者桌面上

近日,网易有道发布了“子曰”大模型4.0版本,这次更新不只是一次功能升级——它直接把过去藏在公司内部的核心技术,一股脑儿开源了。文本、图像、语音,三者能一起理解、互相配合;翻译更自然了;推理更聪明了;最让人意外的是,连能“3秒克隆声音”的TTS引擎,也免费放了出来。

这不是“演示性开源”,也不是“选一部分开源”。这次,有道把多模态模型、语音合成引擎、优化后的思维链逻辑,全打包开源了。GitHub上已经能下载到完整代码和权重,连训练数据的处理方式都写得清清楚楚。不少开发者在社区里说:“这波操作,比某些大厂的‘开源’实在多了。”

能听、能看、能推理,还懂情绪

“子曰”4.0最直观的改变,是它不再“单打独斗”。你发一段语音问它:“刚才那张图里的孩子在哪儿上学?”它能回你:“图片里是北京中关村一小的校服,结合你上一句说的‘他刚参加完奥数比赛’,推测可能是该校的竞赛班。”——这背后,是它把语音、图像、文字统一理解了,不是简单拼接。

在数学题和逻辑推理上,它在270亿参数规模下,已经能跟GPT-4o、Claude 3这些顶级模型掰手腕。国内某教育科技公司实测,它在奥数题和编程逻辑题上的准确率,比之前版本提升了近18%,尤其擅长拆解多步骤问题,不像有些模型“猜答案”。

翻译是它的老本行,这次彻底重做了底层结构。中文到英文不再“字对字硬翻”,比如“这事儿真够折腾的”能自动译成“It’s been a real headache”,而不是“this thing is very troublesome”。外语学习者反馈,现在听它读出来的句子,节奏和语调更像真人说话。

3秒克隆声音?开发者真能用上了

最炸裂的,是开源的TTS(语音合成)引擎。以前想让AI说话像你爸、像你老师、像某个主播?得花几万块买定制服务,还要交几个月的等待期。

现在,你只要上传一段3秒的音频——哪怕只是说了一句“你好”,它就能学会这个人的音色、语调、停顿习惯。做儿童教育App的团队,用它克隆了奶奶的声音,孩子一听就愿意听故事;做客服系统的公司,用它还原了老客户熟悉的语音,客户满意度直接涨了30%。

官方还提供了轻量版模型,手机端也能跑。有开发者在小米14上跑通了实时语音克隆,延迟不到500毫秒,比某些云服务还快。

不靠卖算力,靠生态活着

国内大模型圈,多数还在比谁的参数更大、谁的API收费更贵。有道反其道而行——你用我的模型,不用交钱,不用排队,不用被绑在他们的云上。

他们甚至重构了模型的“思考方式”,让推理时的算力消耗砍掉近40%。这意味着,中小企业不用买昂贵的A100显卡,普通服务器就能跑起来。一位深圳的创业公司负责人说:“我们原来用GPT-4 API,一个月花12万,现在换成子曰4.0本地部署,成本降了九成。”

这不是一次技术秀,而是一场“生态围猎”。有道把教育场景打磨出来的语音、翻译、逻辑能力,打包成一套“开箱即用”的工具包,送给了开发者。谁用得多,谁就能做出更聪明的教育产品、更人性化的客服、更生动的AI助手——而这些应用,反过来又会让更多人用上“子曰”。

接下来,能做出什么?

已经有团队在用它做:

  • 为自闭症儿童定制“情绪语音助手”,能模仿父母说话安抚孩子
  • 农村小学的AI助教,用方言讲解数学题,还能识别学生画的解题草图
  • 跨境电商主播的AI数字人,能实时翻译并模仿主播语气带货

有道没说“要做通用大模型”,但它做的事,比谁都更贴近真实场景。它知道,AI不是用来炫技的,是拿来解决具体问题的——而开源,是让好工具真正跑进千家万户最快的方式。

如果你是个开发者,想试试不花钱、不卡顿、能说话、能看图、还能推理的大模型——现在,你不需要等了。GitHub搜“Youdao-ZiYue-4.0”,代码和模型,都在那儿。