Nvidia发布面向AI代理人的多模态模型Nemotron 3 Nano Omni

NVIDIA于周二（4月28日）发布了Nemotron 3 Nano Omni，这是一款专为AI代理设计的多模态模型，能够在单一模型中同时处理视频、音频、图像与文本，在保持相同交互质量的前提下，处理效率最高可达同类开源模型的9倍。

Nemotron 3是NVIDIA于去年12月发布的开源模型系列，采用Mamba-Transformer MoE架构，分为Nano、Super和Ultra三个版本。Nano Omni是Nano的多模态升级版，在原有文本推理能力基础上，新增了视觉与语音处理能力。

当前AI代理系统在处理屏幕录制、通话音频、文档等任务时，通常需要依赖视觉、语音和语言三个独立模型协同工作，不仅增加延迟，还容易在模型间传递过程中丢失上下文信息。Nemotron 3 Nano Omni将这三种感知能力整合进单一模型，负责代理系统中的感知层，再将任务交由其他模型进行执行或规划。

目前Nemotron 3 Nano Omni主要支持三种代理应用场景，包括电脑操作、文档解读和音视频理解。它能够解析文档、图表、表格与截图等混合内容，适用于企业分析与合规流程；也可同步关联视频画面与音频内容，保持跨模态的完整上下文，适用于客服、研究与监控等场景。在电脑操作方面，法国AI初创公司H Company已将Nano Omni集成到其代理系统中，以1920×1080原生分辨率实时解析屏幕录制内容，在OSWorld基准测试中表现显著提升。

NVIDIA已公开Nemotron 3 Nano Omni的模型权重、训练数据及训练方法，开发者可通过Hugging Face、OpenRouter和build.nvidia.com获取。

CB科技站

Nvidia发布面向AI代理人的多模态模型Nemotron 3 Nano Omni

与本文相关的文章