最新消息:关注人工智能 AI赋能新媒体运营

英伟达发布Nemotron-Labs-TwoTower扩散语言模型,性能提升超两倍

科技资讯 admin 浏览

英伟达开源“双塔”扩散语言模型,生成吞吐量提升2.42倍

7月1日,英伟达正式开源了 Nemotron-Labs-TwoTower 扩散语言模型。该架构试图打破传统自回归模型逐个 token 串行解码的吞吐量瓶颈,将任务拆解为两个部分。

一个保持冻结的“上下文塔”负责处理提示词,保留原有的语言理解能力;另一个经过特定训练的“去噪器塔”则并行生成并优化 token。这种设计在质量与速度之间取得了平衡。在 2×H100 GPU 评测环境下,模型保留了基线模型 98.7% 的生成质量,实际生成吞吐量提升了 2.42 倍。对于需要批量生产合成文本的团队,这差不多等于用很小的质量代价换来了明显更快的数据产出。

该模型在解码端具备灵活性,支持扩散模式、模拟 AR 和标准 AR 三种解码方式,开发者可按任务需求选择。模型已作为开放权重项目发布,遵循 NVIDIA Nemotron 开放模型许可协议,完全支持商业用途。

在代码生成和数学推理任务上,模型相较于原始基线有轻微性能回落,且对 GPU 显存有一定要求。不过,它仍为大模型推理加速提供了一个极具潜力的技术方向。人工智能应用正向高频、大规模场景渗透,通过算法架构优化来换取生成速度,正成为模型研发的新趋势。