一场关于“谁抄了谁”的AI架构风波
最近,欧洲AI公司Mistral的CEO Arthur Mensch在接受采访时放话:“DeepSeek-V3用的架构,根本就是我们Mistral的翻版。”这话一出,立刻在技术圈炸了锅。中文社区的开发者翻出论文、对比代码、扒时间线,结果发现——事情没那么简单。
时间线太巧,谁先谁后说不清
Mistral在2024年1月发布Mixtral 8x7B,号称全球首个开源稀疏混合专家(MoE)模型,风头一时无两。可就在3天后,DeepSeek团队在arXiv上挂出了DeepSeek-MoE的论文。两个团队几乎同时提交,连审稿周期都撞上了。这哪是“借鉴”?分明是两条赛道同时冲线。
更关键的是,Mistral的架构是“8个专家并行,每个token随机选2个”,简单粗暴,工程上容易部署。而DeepSeek-V3直接重构了专家调度机制——引入“细粒度专家分割”,把通用知识和专业技能拆开管理,还加了“共享专家”模块,让模型在低负载时也能稳住基础能力。这不是“照搬”,这是重新设计。
反转来了:Mistral新模型,反倒像在学DeepSeek
事情还没完。2025年底,Mistral推出了Mistral 3 Large,结果被网友扒出——它的底层结构,居然和DeepSeek-V3的MLA(Multi-Layer Attention)机制高度相似。MLA是DeepSeek在2025年初提出的一项创新,用多层注意力动态分配计算资源,大幅降低推理延迟。Mistral 3 Large突然用上了这套逻辑,连参数命名都像在模仿。
有人调侃:“Mistral先是说‘你抄我’,结果自己悄悄改成了‘我抄你’。”更有开发者在X(原Twitter)上留言:“这不叫创新,这叫技术回流。”
开源不是谁先喊“我原创”,而是谁跑得快
别忘了,Mistral和DeepSeek都是开源玩家。Mistral靠欧洲资本和开发者社区撑起“欧洲版OpenAI”的人设,DeepSeek则靠中国团队夜以继日地发论文、调模型、开源权重。没人拦着你用别人的代码,但真正让人服气的,是性能、是效率、是实测的推理速度和成本。
就在上个月,DeepSeek-V3在Hugging Face的开源模型下载量已突破800万次,超越Llama 3 70B,成为全球下载量最高的MoE模型。Mistral的Mixtral虽然早期占了先机,但后续更新节奏明显放缓。反观DeepSeek,团队已放出消息:2026年春节前,将发布新一代模型,参数规模直指128K上下文,推理成本再降40%。
真正的战场不在嘴上,在GPU和算力上
技术圈不是辩论赛,没人会为一句“我先提出的”买单。开发者只关心:谁的模型跑得更快?谁的API更便宜?谁的代码更容易部署?
现在,Mistral忙着推Devstral系列,想在编程智能体领域再打一仗;DeepSeek则悄悄在金融、医疗、教育场景落地,和国内云厂商谈合作。谁在真干活,谁在刷存在感,社区心里有数。
这场风波,说到底不是谁抄了谁,而是全球AI竞赛进入“快车道”后的必然摩擦。你追我赶,你改我升级,这才是开源的真相——不是谁站在原地喊“这是我发明的”,而是谁在不断往前跑,跑得比别人快,跑得比别人稳。
下次再有人说“你抄我”,别急着站队。先去Hugging Face下载模型,跑个基准测试,再看看谁的算力账单更漂亮。