NVIDIA于周二(4月28日)发布了Nemotron 3 Nano Omni,这是一款专为AI代理设计的多模态模型,能够在单一模型中同时处理视频、音频、图像与文本,在保持相同交互质量的前提下,处理效率最高可达同类开源模型的9倍。
Nemotron 3是NVIDIA于去年12月发布的开源模型系列,采用Mamba-Transformer MoE架构,分为Nano、Super和Ultra三个版本。Nano Omni是Nano的多模态升级版,在原有文本推理能力基础上,新增了视觉与语音处理能力。
当前AI代理系统在处理屏幕录制、通话音频、文档等任务时,通常需要依赖视觉、语音和语言三个独立模型协同工作,不仅增加延迟,还容易在模型间传递过程中丢失上下文信息。Nemotron 3 Nano Omni将这三种感知能力整合进单一模型,负责代理系统中的感知层,再将任务交由其他模型进行执行或规划。
目前Nemotron 3 Nano Omni主要支持三种代理应用场景,包括电脑操作、文档解读和音视频理解。它能够解析文档、图表、表格与截图等混合内容,适用于企业分析与合规流程;也可同步关联视频画面与音频内容,保持跨模态的完整上下文,适用于客服、研究与监控等场景。在电脑操作方面,法国AI初创公司H Company已将Nano Omni集成到其代理系统中,以1920×1080原生分辨率实时解析屏幕录制内容,在OSWorld基准测试中表现显著提升。
NVIDIA已公开Nemotron 3 Nano Omni的模型权重、训练数据及训练方法,开发者可通过Hugging Face、OpenRouter和build.nvidia.com获取。