英伟达发布Nemotron-Labs-TwoTower扩散语言模型，性能提升超两倍

英伟达开源“双塔”扩散语言模型，生成吞吐量提升2.42倍

7月1日，英伟达正式开源了 Nemotron-Labs-TwoTower 扩散语言模型。该架构试图打破传统自回归模型逐个 token 串行解码的吞吐量瓶颈，将任务拆解为两个部分。

一个保持冻结的“上下文塔”负责处理提示词，保留原有的语言理解能力；另一个经过特定训练的“去噪器塔”则并行生成并优化 token。这种设计在质量与速度之间取得了平衡。在 2×H100 GPU 评测环境下，模型保留了基线模型 98.7% 的生成质量，实际生成吞吐量提升了 2.42 倍。对于需要批量生产合成文本的团队，这差不多等于用很小的质量代价换来了明显更快的数据产出。

该模型在解码端具备灵活性，支持扩散模式、模拟 AR 和标准 AR 三种解码方式，开发者可按任务需求选择。模型已作为开放权重项目发布，遵循 NVIDIA Nemotron 开放模型许可协议，完全支持商业用途。

在代码生成和数学推理任务上，模型相较于原始基线有轻微性能回落，且对 GPU 显存有一定要求。不过，它仍为大模型推理加速提供了一个极具潜力的技术方向。人工智能应用正向高频、大规模场景渗透，通过算法架构优化来换取生成速度，正成为模型研发的新趋势。

文本生成扩散语言模型英伟达 Nemotron-Labs-TwinTower 自回归模型

CB科技站

英伟达发布Nemotron-Labs-TwoTower扩散语言模型，性能提升超两倍

英伟达开源“双塔”扩散语言模型，生成吞吐量提升2.42倍

与本文相关的文章