Qwen发布Qwen3.5-Omni，支持最长10小时语音输入

阿里巴巴旗下的Qwen团队于周一（3月30日）发布了Qwen3.5-Omni多模态模型，其最大亮点在于支持长达10小时的语音输入，可直接分析长时间的会议、访谈和录音内容，并输出分段摘要与带时间轴的结构化信息，标志着AI正从实时对话工具，向长时序内容理解与整理方向演进。

Qwen团队早在2025年9月发布Qwen3-Omni时，便首次明确将模型定位为原生多模态，意味着它能够同时处理文本、图像、音频与视频等多种输入，并在单一模型中完成理解和生成。与传统多模态架构需依赖多个模型分别处理不同数据类型，再通过外部流程整合结果不同，全模态架构采用单一模型统一处理与推理，使各模态可直接共享语义表示，从而提升跨模态理解的效率。

在功能上，Qwen3.5-Omni延续了原有的多模态架构，支持文本、图像、语音和视频输入，并可输出文本、语音以及带时间轴的结构化分析结果，包括分段摘要、说话人识别与重点标注；同时将内容描述能力（Caption）从音频扩展至视频，并支持智能语义打断与语音控制等交互功能。

Qwen3.5-Omni还增强了语言能力，语音识别支持的语言从11种提升至74种，方言从8种提升至39种，并支持29种语言和7种方言的语音合成，使模型可广泛应用于多语言及本地化语音场景。

此次更新的核心亮点在于长内容处理能力。Qwen3.5-Omni支持长达10小时的语音输入，并将上下文长度从32K提升至256K Token，能够同时理解长时间语音及其转换后的文本内容，直接应用于完整的会议、课程或访谈分析。相比过去需要分段处理音频再拼接结果的方式，这一能力大幅降低了人工整理成本，也让语音数据更易于融入企业知识管理与自动化流程。

不过，该模型在视频处理方面仍有限制，最长仅支持约400秒的输入，表明其长内容能力目前仍主要聚焦于语音与文本场景。

总体而言，Qwen3.5-Omni此次升级的重点并非新增模态，而是将长内容处理能力进一步产品化。相较于OpenAI和Google更侧重于实时语音交互或长上下文推理，Qwen率先将“最长10小时语音输入”作为核心能力，将竞争焦点从实时对话延伸至会议、访谈与音视频等长时序应用场景。

语音输入多模态模型 Qwen3.5-Omni 长语音处理

CB科技站

Qwen发布Qwen3.5-Omni，支持最长10小时语音输入

与本文相关的文章