寒武纪率先完成 DeepSeek-V4 全系列模型 Day0 适配,国产算力再破纪录
今天,寒武纪正式宣布,已成功在发布当天完成对深度求索(DeepSeek)最新开源大模型 DeepSeek-V4 全系列的全面适配,涵盖 285B 参数的 Flash 版本和 1.6T 参数的 Pro 版本。这意味着,只要 DeepSeek-V4 在 GitHub 上线,开发者就能立刻在寒武纪 MLU 硬件上跑起来,无需等待、无需调试,真正实现“开箱即用”。
这次适配不是简单“跑通”,而是深度优化。DeepSeek-V4 引入了独特的稀疏注意力机制和压缩结构,传统框架很难高效支持。寒武纪团队直接动手,用自研的 BangC 语言重写了核心算子——包括稀疏 Attention 和 GroupGemm,把每个指令都榨干性能。同时,他们基于 vLLM 框架,完整支持了 TP(张量并行)、PP(流水线并行)、SP(序列并行)、DP(数据并行)和 EP(专家并行)五种混合并行模式,让大模型在多卡、多机环境下跑得又快又稳。
更关键的是,寒武纪针对 DeepSeek-V4 的压缩结构,专门优化了内存访问路径。传统 GPU 在处理这种“稀疏索引+动态长度”结构时,经常卡在数据搬运上。而 MLU 芯片的高带宽互联和定制化排序引擎,让 Prefill(首字生成)和 Decode(逐字输出)阶段的通信延迟大幅降低。实测显示,在相同硬件规模下,词元吞吐量比主流平台高出 30% 以上,尤其在处理百万字上下文时,响应更流畅,卡顿更少。
百万字上下文不是噱头,国产硬件真扛得住
DeepSeek-V4 最吸引人的地方,是它能稳定处理 1M tokens(约 75 万汉字)的超长上下文——这相当于一口气读完一本《三体》全集,还能精准记住开头的细节。但这也对算力平台提出极高要求:内存要够大,访存要够快,调度要够聪明。
此前,业内普遍认为这类模型必须依赖 NVIDIA H100 或国产高端 GPU 才能跑得动。但寒武纪这次用 MLU370-X8 和 MLU590 系列芯片,实现了同等性能的推理效率。更难得的是,他们把量化支持做到了极致:支持 INT4、FP8 低精度推理,模型体积压缩近 60%,推理成本直降,企业用得起、用得稳。
目前,相关优化代码已全部开源至 GitHub(https://github.com/Cambricon/vllm-cambricon),开发者可直接拉取、部署、测试。不少开源社区用户已在评论区反馈:“第一次在国产芯片上跑通 1.6T 模型,没报错,没崩,速度还行。”
不只是技术秀,是国产AI生态的转折点
过去,大模型落地总绕不开“国外芯片+国外框架”的组合。寒武纪这次不靠宣传,而是用实打实的代码和性能,证明了国产算力平台已经能跟上最前沿模型的步伐。
这不是一次孤立的适配。从去年支持 Llama 3、Qwen2,到今年无缝跟进 DeepSeek-V4,寒武纪的适配节奏越来越快,从“能跑”到“跑得好”,再到“跑得省”,每一步都在回应开发者的真实需求:不要花架子,要能用、敢用、用得久。
现在,高校实验室、中小 AI 创业公司、甚至地方政务大模型项目,终于有了一个不依赖进口芯片的可靠选项。寒武纪的这套方案,不是“替代”,而是“补充”——它让中国的大模型生态,不再只有一条路。
开源代码已上线,硬件已就位。如果你正在为大模型部署发愁,不妨试试这套“国产组合拳”——不吹牛,真能跑。