通义千问全新多模态模型Qwen3.5-Omni发布:能听、能看、能说,还能帮你写代码
昨晚,通义实验室正式推出全新多模态大模型 Qwen3.5-Omni。这不是一次简单的升级,而是一次让AI真正“睁开眼、竖起耳、开口说话”的突破。它不再只是回答你文字问题的工具,而是能看懂你发的视频、听清你录的语音、理解你的情绪,甚至能根据画面自动生成代码——就像一个能跟你并肩工作的智能伙伴。
这次发布的模型,已经在215项权威测试中拿下行业第一,尤其在音频理解方面,表现超越了谷歌最新推出的Gemini 3.1 Pro。如果你经常用语音转文字、听会议录音、分析短视频里的背景音,你会发现它听得更准、记得更清、反应更自然。

不只是听懂你说了什么,更懂你没说出口的意思
Qwen3.5-Omni 的核心,是它能同时处理文字、图像、声音和视频。你发一段自己拍的做饭视频,它不仅能识别出你在切洋葱、锅里冒烟,还能告诉你:“火候有点大,建议调小一点”,甚至能推荐一个类似的菜谱。
它能处理长达10小时的会议录音,自动标记出谁说了什么、关键决策点在哪里、哪些地方被反复讨论。你不用再手动拖进度条找重点,它直接给你整理出时间轴和摘要。
更让人惊喜的是,它能分辨你说话时的“停顿”是思考,还是咳嗽、打喷嚏。你刚说“我觉得这个方案……”咳了两声,它不会急着接话,而是等你继续。你可以说:“刚才那句重说一遍,语气轻松点”,它马上就能调整成更自然、带点笑意的语调。

你拍个视频,它能直接写出代码
有个真实场景:你录了一段自己在手机上操作一个简易购物界面的视频——点商品、加购物车、结算。你没写一行代码,只是把视频丢给Qwen3.5-Omni,它居然能自动生成一套可用的React前端页面代码,连按钮样式、跳转逻辑都基本对得上。
这不靠训练数据里的“代码+截图”配对,而是靠它真正“看懂”了操作逻辑。开发者、产品经理、甚至不懂编程的创业者,现在都能用这种方式快速把想法变成原型。
你的声音,也能被“复制”出来
你有没有想过,用一段30秒的语音,就能让AI用你的声音说英文、日语、西班牙语?Qwen3.5-Omni 支持个性化音色克隆,你只需上传一段清晰的录音(不需要专业设备),它就能生成一个高自然度的“数字分身”,支持113种语言,语调、节奏、甚至轻微的呼吸声都保留。
这意味着:你可以为自己的老年父母定制一个用他们熟悉口音讲健康提醒的语音助手;主播可以用自己的声音生成多语种播客;客服团队能用员工的真实声音做智能应答,而不只是冷冰冰的合成音。
现在就能用,三种版本任选
Qwen3.5-Omni 已在阿里云百炼平台上线,提供三种版本:
- Plus:适合专业用户,处理长视频、高精度分析
- Flash:响应快,适合实时对话、语音交互
- Light:轻量级,手机端也能流畅运行
你还可以直接访问魔搭社区的在线Demo,上传一段视频或语音,当场试试它能做什么。同时,Realtime API 已开放,开发者可以接入自己的App,让产品“听得懂、看得清、说得自然”。
这不是科幻片里的AI,它就在你手机里、电脑上,随时准备帮你省下几小时的重复劳动——从整理会议录音,到生成代码,再到用你自己的声音跟全球客户沟通。