小红书开源 RedKnot 推理引擎，长上下文处理效率翻倍

小红书开源 RedKnot 推理引擎，长文本任务提速 5.16 倍

小红书技术团队开源了自研的 RedKnot 推理引擎，为长上下文任务带来一套降本增效的新方案。

RedKnot 的核心改变在于打破了传统的 KV Cache（键值缓存）处理模式。以往大模型推理时，缓存按 token（词元）维度存储，处理长文本会导致内存开销线性增长，拖慢速度与并发。RedKnot 将 KV Cache 沿注意力头（Attention Head）维度拆解，同时引入“头分类稀疏”、“稀疏 FFN”以及“SegPagedAttention”三项机制，统一了算法逻辑与存储粒度。

实测数据很能说明问题。在 8 卡 H800 环境下，RedKnot 将首字生成时间（TTFT）加速 1.6 倍至 3.54 倍，单卡并发能力提升 4.7 倍至 7.8 倍。预填充阶段的计算资源消耗（FLOPs）削减了 67% 至 79.5%。以 DeepSeek-V4-Flash 模型在 128K 超长上下文任务上的表现为例，首字生成速度提升了 5.16 倍，KV 数据传输效率优化了 6.3 倍，推理精度维持在稠密模型性能的 95% 以上。

RedKnot 的开源为推理引擎的工程优化提供了一个新思路。在算力资源日益紧张的背景下，通过底层架构的精细化拆解来缓解长文本推理负担，有助于构建更轻量、更高效的 AI 推理系统。相关代码已正式开源，意在推动长文本 AI 应用的落地。

KV cache 小红书推理引擎长文本处理 RedKnot

CB科技站

小红书开源 RedKnot 推理引擎，长上下文处理效率翻倍

小红书开源 RedKnot 推理引擎，长文本任务提速 5.16 倍

与本文相关的文章