寒武纪开源DeepSeek-V4全系列模型Day0适配优化代码

寒武纪率先完成 DeepSeek-V4 全系列模型 Day0 适配，国产算力再破纪录

今天，寒武纪正式宣布，已成功在发布当天完成对深度求索（DeepSeek）最新开源大模型 DeepSeek-V4 全系列的全面适配，涵盖 285B 参数的 Flash 版本和 1.6T 参数的 Pro 版本。这意味着，只要 DeepSeek-V4 在 GitHub 上线，开发者就能立刻在寒武纪 MLU 硬件上跑起来，无需等待、无需调试，真正实现“开箱即用”。

这次适配不是简单“跑通”，而是深度优化。DeepSeek-V4 引入了独特的稀疏注意力机制和压缩结构，传统框架很难高效支持。寒武纪团队直接动手，用自研的 BangC 语言重写了核心算子——包括稀疏 Attention 和 GroupGemm，把每个指令都榨干性能。同时，他们基于 vLLM 框架，完整支持了 TP（张量并行）、PP（流水线并行）、SP（序列并行）、DP（数据并行）和 EP（专家并行）五种混合并行模式，让大模型在多卡、多机环境下跑得又快又稳。

更关键的是，寒武纪针对 DeepSeek-V4 的压缩结构，专门优化了内存访问路径。传统 GPU 在处理这种“稀疏索引+动态长度”结构时，经常卡在数据搬运上。而 MLU 芯片的高带宽互联和定制化排序引擎，让 Prefill（首字生成）和 Decode（逐字输出）阶段的通信延迟大幅降低。实测显示，在相同硬件规模下，词元吞吐量比主流平台高出 30% 以上，尤其在处理百万字上下文时，响应更流畅，卡顿更少。

百万字上下文不是噱头，国产硬件真扛得住

DeepSeek-V4 最吸引人的地方，是它能稳定处理 1M tokens（约 75 万汉字）的超长上下文——这相当于一口气读完一本《三体》全集，还能精准记住开头的细节。但这也对算力平台提出极高要求：内存要够大，访存要够快，调度要够聪明。

此前，业内普遍认为这类模型必须依赖 NVIDIA H100 或国产高端 GPU 才能跑得动。但寒武纪这次用 MLU370-X8 和 MLU590 系列芯片，实现了同等性能的推理效率。更难得的是，他们把量化支持做到了极致：支持 INT4、FP8 低精度推理，模型体积压缩近 60%，推理成本直降，企业用得起、用得稳。

目前，相关优化代码已全部开源至 GitHub（https://github.com/Cambricon/vllm-cambricon），开发者可直接拉取、部署、测试。不少开源社区用户已在评论区反馈：“第一次在国产芯片上跑通 1.6T 模型，没报错，没崩，速度还行。”

不只是技术秀，是国产AI生态的转折点

过去，大模型落地总绕不开“国外芯片+国外框架”的组合。寒武纪这次不靠宣传，而是用实打实的代码和性能，证明了国产算力平台已经能跟上最前沿模型的步伐。

这不是一次孤立的适配。从去年支持 Llama 3、Qwen2，到今年无缝跟进 DeepSeek-V4，寒武纪的适配节奏越来越快，从“能跑”到“跑得好”，再到“跑得省”，每一步都在回应开发者的真实需求：不要花架子，要能用、敢用、用得久。

现在，高校实验室、中小 AI 创业公司、甚至地方政务大模型项目，终于有了一个不依赖进口芯片的可靠选项。寒武纪的这套方案，不是“替代”，而是“补充”——它让中国的大模型生态，不再只有一条路。

开源代码已上线，硬件已就位。如果你正在为大模型部署发愁，不妨试试这套“国产组合拳”——不吹牛，真能跑。

CB科技站

寒武纪开源DeepSeek-V4全系列模型Day0适配优化代码

寒武纪率先完成 DeepSeek-V4 全系列模型 Day0 适配，国产算力再破纪录

百万字上下文不是噱头，国产硬件真扛得住

不只是技术秀，是国产AI生态的转折点

与本文相关的文章