阿里巴巴旗下的Qwen团队于周一(3月30日)发布了Qwen3.5-Omni多模态模型,其最大亮点在于支持长达10小时的语音输入,可直接分析长时间的会议、访谈和录音内容,并输出分段摘要与带时间轴的结构化信息,标志着AI正从实时对话工具,向长时序内容理解与整理方向演进。
Qwen团队早在2025年9月发布Qwen3-Omni时,便首次明确将模型定位为原生多模态,意味着它能够同时处理文本、图像、音频与视频等多种输入,并在单一模型中完成理解和生成。与传统多模态架构需依赖多个模型分别处理不同数据类型,再通过外部流程整合结果不同,全模态架构采用单一模型统一处理与推理,使各模态可直接共享语义表示,从而提升跨模态理解的效率。
在功能上,Qwen3.5-Omni延续了原有的多模态架构,支持文本、图像、语音和视频输入,并可输出文本、语音以及带时间轴的结构化分析结果,包括分段摘要、说话人识别与重点标注;同时将内容描述能力(Caption)从音频扩展至视频,并支持智能语义打断与语音控制等交互功能。
Qwen3.5-Omni还增强了语言能力,语音识别支持的语言从11种提升至74种,方言从8种提升至39种,并支持29种语言和7种方言的语音合成,使模型可广泛应用于多语言及本地化语音场景。
此次更新的核心亮点在于长内容处理能力。Qwen3.5-Omni支持长达10小时的语音输入,并将上下文长度从32K提升至256K Token,能够同时理解长时间语音及其转换后的文本内容,直接应用于完整的会议、课程或访谈分析。相比过去需要分段处理音频再拼接结果的方式,这一能力大幅降低了人工整理成本,也让语音数据更易于融入企业知识管理与自动化流程。
不过,该模型在视频处理方面仍有限制,最长仅支持约400秒的输入,表明其长内容能力目前仍主要聚焦于语音与文本场景。
总体而言,Qwen3.5-Omni此次升级的重点并非新增模态,而是将长内容处理能力进一步产品化。相较于OpenAI和Google更侧重于实时语音交互或长上下文推理,Qwen率先将“最长10小时语音输入”作为核心能力,将竞争焦点从实时对话延伸至会议、访谈与音视频等长时序应用场景。