最新消息:关注人工智能 AI赋能新媒体运营

DeepSeek曝光新架构“MODEL1”,2月上线,编程能力全面升级

科技资讯 admin 浏览

DeepSeek 下一代模型悄然现身,代码泄露揭示重大升级

就在 DeepSeek-R1 发布一周年之际,一款代号为“MODEL1”的新模型线索突然浮出水面。开发者在 DeepSeek 的 GitHub 仓库中发现,其最新更新的 FlashMLA 代码库中,横跨114个文件出现了多达28处对“MODEL1”的引用。这并非简单的测试标签——代码结构和注释明确显示,它是一个与当前主力模型 DeepSeek-V3.2(代号“V32”)完全不同的全新架构。

更值得关注的是,新模型在底层设计上做了深度重构。与 V32 相比,“MODEL1”重新设计了键值(KV)缓存的存储方式,大幅降低推理时的内存占用;引入了更高效的稀疏注意力机制,让长文本处理更流畅;最关键的是,它首次原生支持 FP8 数据格式进行解码——这意味着在同等算力下,模型响应速度可能提升30%以上,推理成本显著下降。这些改动不是小修小补,而是为大规模部署量身打造的工程突破。

农历新年前后或正式发布,代码能力再攀高峰

据《The Information》最新消息,这款新模型极有可能在2月中旬正式亮相,时间点恰好卡在农历新年期间。这一时机并非偶然——业内普遍认为,DeepSeek 正在瞄准开发者群体的“开年第一波技术升级需求”。届时,新模型或将以“DeepSeek V4”之名发布,并被重点宣传其在代码生成领域的突破性表现。

过去一年,DeepSeek 在开源社区已凭借 R1 和 V3.2 建立了“最强开源代码模型”的口碑。而这次,从内部技术文档和论文线索来看,新模型或将融合团队此前发布的两项前沿成果:一是“优化残差连接(mHC)”,能有效缓解深层网络训练中的梯度衰减问题;二是受神经科学启发的“AI 记忆模块(Engram)”,让模型在处理复杂任务时具备更强的上下文保持能力。这两项技术一旦落地,意味着它不仅能写出更准确的代码,还能在长时间对话、多文件项目中保持逻辑连贯,真正像一个资深工程师那样“记得住上下文”。

开发者已提前行动,社区热度悄然升温

目前,已有部分开源贡献者在 Discord 和 GitHub 讨论区自发组织“MODEL1”预测小组,有人甚至通过反编译模型权重文件,初步推测其参数规模可能在200B以上,远超当前主流开源模型。虽然官方尚未确认,但多个技术博主已开始搭建测试环境,准备第一时间跑通新模型的推理流程。

如果你是开发者、AI 工程师,或长期关注开源大模型进展,这可能是今年最值得期待的一次升级。相比某些厂商“PPT发布”的套路,DeepSeek 的风格一向务实——没有炫技的宣传,只有扎实的代码和性能数据。这一次,他们可能正悄悄准备一场真正的“技术暴击”。

DeepSeek