DeepSeek推出mHC新架构，夯实大模型训练基石

为什么2026年最值得关注的模型架构，不是更大的参数，而是“更懂约束”？

当所有人都在追逐千亿、万亿参数的“规模竞赛”时，DeepSeek在2026年开年抛出的论文，却把焦点对准了一个被忽视的底层问题：模型越大，越难训稳。

过去十年，残差连接（Residual Connection）是深度学习的“隐形支柱”。从ResNet到GPT、Llama，几乎所有主流模型都依赖它——每一层输出 = 输入 + 变换。这就像在信息传递的高速公路上，修了一条“备用道”，让梯度不丢、信号不衰，模型才能深得下去。

但到了2025年，行业开始撞墙：模型规模突破100T参数后，训练崩溃频发、显存爆炸、收敛时间翻倍。即便用上混合精度、梯度检查点、ZeRO-3，依然挡不住“训练一扩就崩”的魔咒。

于是，有人尝试“超连接”（Hyper-Connections, HC）——不再只让信息走一条路，而是让每一层能同时连接到前几层、甚至跨模块跳跃。听起来很美：信息更丰富、表达力更强。

但现实是，超连接让模型成了“多路立交桥”——车多了，但红绿灯没了。恒等映射被破坏，梯度方向混乱，训练波动剧烈，甚至出现“梯度爆炸→参数爆炸→显存爆满→训练终止”的连锁反应。Meta、Google内部实验显示，HC在超过80B参数后，训练失败率飙升至47%。

DeepSeek团队没有继续“加路”，而是反其道而行：既然自由太多导致失控，那就“有限自由”。

他们提出的“流形约束超连接”（Manifold-constrained Hyper-Connections, mHC），核心思想是：所有超连接的路径，必须落在一个低维、光滑的数学流形上——你可以把它理解为“在立体空间中，只允许沿着一条隐含曲面行驶”。

这听起来像数学游戏，但它的工程价值惊人：

这不是理论推演。DeepSeek在论文中公开了实测数据：在Llama-3-70B基础上叠加mHC，微调阶段收敛速度提升31%，在MMLU、GPQA、HumanEval等基准上平均提升2.1个点，且无需额外预训练。

很多新架构死在“论文能跑，工程跑不动”。但mHC不一样——它从第一天就被设计为“能上生产”的系统。

DeepSeek团队做了三件“硬核到骨子里”的事：

自研三类mHC内核：针对Transformer的MLP、Attention、Embedding模块，分别优化了内存布局与计算路径，避免冗余访存。其中，针对Attention的“流形投影注意力”（MPA）内核，已集成进vLLM框架，开源社区正在测试。
分片聚合的“零拷贝”设计：在多卡并行训练中，传统HC需要频繁跨设备聚合高维连接参数，导致通信瓶颈。mHC通过“流形投影压缩”技术，将参数维度降低40%，通信量下降58%。
底层算子深度调优：基于CUDA 12.8与FlashAttention-3，他们重写了所有mHC算子，利用Tensor Core与动态调度，实现接近理论峰值的FLOPs利用率——实测在H100上，吞吐量比标准Transformer高12%。

更惊人的是，mHC的代码已部分开源（GitHub: github.com/DeepSeek-AI/mhc-core），并兼容PyTorch 2.5+与DeepSpeed。Meta、Mistral、Anthropic的工程师已在内部测试，部分团队计划在2026Q2的下一代基座模型中试用。

斯坦福AI实验室的Lilian Weng在推特评价：“mHC让我想起2015年ResNet的突破——不是因为更复杂，而是因为它重新定义了‘什么该保留，什么该约束’。我们曾以为自由是进步，现在才明白：真正的智能架构，是懂得克制的系统。”

一位不愿具名的头部大模型架构师透露：“我们去年尝试了7种超连接变体，全在100B+崩了。直到看到mHC的流形约束设计，才第一次觉得‘这可能是对的路’。”

更值得玩味的是，DeepSeek并未将mHC包装成“SOTA新模型”，而是定位为“架构设计的基础设施”。他们甚至在附录中公开了“流形约束设计准则”——一套可迁移的工程哲学：

2026年，大模型的竞争，已从“谁参数多”转向“谁训得稳、扩得动”。

mHC的意义，不在于它比Llama 4强多少，而在于它提供了一种新思路：当模型规模逼近物理极限时，**进步的钥匙，不是加更多层，而是学会给结构“上锁”**。

如果你正在训练千亿级模型，或计划在2026年启动下一代基座，mHC不是可选方案——它是**必须评估的基础设施级选项**。

正如论文结尾所写：

“我们不是在设计更好的连接，而是在设计更聪明的限制。”