
Hugging Face
Nvidia本周开源Llama-3.1-Nemotron-Ultra-253B-v1模型,宣称效能和DeepSeek R1相当,但仅一半的参数量。
Llama-3.1-Nemotron-Ultra是Nvidia三月GTC大会上宣布的Llama Nemotron系列。Nano可在PC和边缘装置执行、Super可在单一GPU上执行,而Ultra模型则适用于多颗GPU的服务器。其中Super(49B)以及Nano(8B)也已经开源。
最新发布的Llama-3.1-Nemotron-Ultra是Meta Llama-3.1-405B-Instruct的衍生,为推理、人类聊天偏好、以及RAG和工具呼叫等任务后训练。Llama-3.1-Nemotron-Ultra支援128K字词的context length,欲执行推论,最好搭配单一8xH100节点。
Llama-3.1-Nemotron-Ultra能兼顾模型準确性和执行效率(资料吞吐量)。Nvidia利用新的神经架构搜寻(Neural Architecture Search,NAS)技术来降低3.1 Ultra的记忆体大小,可支援大型工作负载并减少执行模型需要的GPU数量,因而可在模型準确性和效率之间取得平衡。此外,利用本方法垂直压缩本模型,也大幅改善延迟性。
Nvidia说,Llama-3.1-Nemotron-Ultra经过多阶段后训练,来改进其推理及非推理能力。后训练方法包括为培养数学、编程、推理、聊天做的监督微调阶段,以及为推理、聊天与指令遵从而进行的群组关联政策优化(Group Relative Policy Optimization,GRPO)演算法。
Nvidia也列出Llama-3.1-Nemotron-Ultra和参数两倍大(6710亿参数)的DeepSeek R1、和Llama 4 Behemoth、4000亿参数Llama 4 Maverick及Llama 3.1 405B的标竿测试结果比较。其中在科学推理(GPQA Diamond)、複杂运算(AIME 2024)、程序撰写、指令遵循中,Llama-3.1-Nemotron-Ultra都超越同侪,仅在複杂数学和聊天测试中由DeepSeek R1居冠。在所有项目中,Llama-3.1-Nemotron-Ultra也都大幅超越其源出的Llama 3.1-405B。
Llama-3.1-Nemotron-Ultra现在已可提供商用,可在Hugging Face下载。3.1 Ultra可支援多种应用场景,包含AI代理人系统、聊天机器人、撷取增强生成(RAG)和其他AI应用,也适合一般指令遵循的任务。本模型主要支援英文和程序语言,但也支援德、法、义、葡、西语、泰语及北印度语(Hindi)。