最新消息:关注人工智能 AI赋能新媒体运营

Nvidia发表一系列推理模型,强化AI代理与机器人的多步决策能力

科技智能 admin 浏览 评论

Nvidia在今年顶级电脑图学会议SIGGRAPH大会宣布扩充其开放推理模型家族,推出新一代Nemotron与Cosmos Reason模型,针对人工智慧代理与机器人应用,提升推理準确度、效率与多步骤任务处理能力。

新款Nemotron系列包括Nemotron Nano 2与Llama Nemotron Super 1.5,锁定企业级人工智慧代理需求,针对于科学推理、数学计算、程序码生成、工具呼叫与指令理解等任务。Nemotron Nano 2在同规模模型中,Token生成速度最高可达6倍,而Llama Nemotron Super 1.5则在推理準确度上居于领先,并提供4位元浮点数(NVFP4)版本,在Nvidia B200 GPU上的吞吐量可达H100的6倍,适合需要高效率推理的工作负载。

在兼顾性能与成本上,Nvidia于新一代模型中引入混合架构、紧凑量化(Compact Quantized)设计与可配置的思考预算机制,让开发者能精确控制推理过程中Token的生成数量。此设计可在不额外增加时间或算力的前提下,实现最高约60%的推理成本降低,并确保人工智慧代理在既定资源限制内,维持深度推理能力与快速回应能力。

在实体人工智慧(Physical AI)领域,Nvidia推出的Cosmos Reason是一款开放且可自订的70亿参数推理视觉语言模型(Vision Language Model,VLM),具备物理概念理解、物体恆存与时空推理等能力。该模型可作为机器人视觉语言行动(Vision Language Action,VLA)模型的推理核心,支援决策制定、训练资料的筛选与标注,以及视讯分析人工智慧代理的部署。在工厂、仓储、零售、机场与交通监控等场景中,这些人工智慧代理能够进行异常检测与即时摘要,协助企业提升营运监控与反应速度。

Nvidia也同步释出第一个开放视觉语言模型训练资料集Llama Nemotron VLM dataset v1,包含300万笔光学字元辨识、视觉问答与影像描述资料,提供Llama 3.1 Nemotron Nano VL 8B等视觉语言模型训练与强化基础。同时,Llama 3.2 NeMo Retriever嵌入模型在多项视觉文件检索评测中表现突出,进一步提升检索增强生成(RAG)型人工智慧代理的準确性与实用性。

发表我的评论
取消评论

表情

您的回复是我们的动力!

  • 昵称 (必填)
  • 验证码 点击我更换图片

网友最新评论