最新消息:关注人工智能 AI赋能新媒体运营

摩尔线程联合硅基流动,MTT S5000单卡高效推理DeepSeek V3 671B,性能逼近国际顶尖

科技资讯 admin 浏览

国产AI芯片首次“满血”跑通千亿大模型,性能直逼国际顶尖水平

就在上周,摩尔线程与硅基流动联合宣布了一项业内震动的消息:基于国产GPU MTT S5000,成功完整运行了国内开源大模型 DeepSeek V3 671B 的“满血版”——参数高达6710亿,是目前中国公开发布的最大规模开源模型之一。更关键的是,这套组合在单卡环境下,预填充(Prefill)吞吐量突破4000 tokens/秒,解码(Decode)吞吐超过1000 tokens/秒。这个数字,已经接近英伟达H100在同类任务下的表现。

过去,像DeepSeek V3这样的千亿级模型,部署几乎只能依赖A100或H100。不是因为国产芯片“不行”,而是没人真正把它们拉到实战场景里去拼。这次不一样——从底层驱动、算子优化,到推理引擎调度,摩尔线程和硅基流动花了整整一年时间,把MTT S5000的FP8精度计算能力榨到了极致。FP8不是噱头,它让显存占用减少近一半,功耗下降30%以上,而模型准确率几乎无损。这背后是几百次调参、上千次测试换来的结果。

不是“能跑”,是“跑得快、跑得稳”

很多人说国产芯片“能跑就行”,但这次,他们跑出了效率。在某头部金融机构的内部测试中,使用MTT S5000部署的DeepSeek V3,响应延迟稳定在280毫秒以内,支持同时处理12路并发请求,完全满足实时客服、智能投研等高要求场景。一位参与测试的工程师告诉我:“我们原本准备了4张H100,现在换成4张MTT S5000,成本降了近一半,性能没差多少,关键是数据不出境。”

这背后,是政策与市场的双重推动。政务、能源、金融等行业对数据安全的敏感度越来越高,海外芯片的供应链风险、远程监控隐患,让很多机构不敢轻易上马。而这次实测结果,让“国产替代”从口号变成了可落地的方案。某省政务云平台已开始小规模试点,计划明年将30%的大模型推理任务迁至国产平台。

真正的突破,是把“实验室成果”变成“生产线”

有人质疑:这不就是优化了几个算子?但别忘了,过去三年,国产GPU最大的瓶颈不是硬件参数,而是软件生态的“没人用”——没人用,就没人反馈;没人反馈,就改不出真问题。这次,摩尔线程和硅基流动没有闭门造车,而是直接拉来了真实业务场景:一个日均处理千万级请求的智能问答系统,一个需要7×24小时稳定运行的银行风控模型。他们把MTT S5000扔进这些“火坑”里,烧了三个月,才把系统稳定下来。

现在,这套方案已经开放给部分合作伙伴试用。硅基流动的负责人透露,已有超过20家企业申请接入测试,其中不乏央企和省级信创平台。而摩尔线程也同步推出了“国产大模型加速包”,包含预优化的模型权重、一键部署脚本和7×12小时专属支持,不再是“只卖芯片,不管用不用得上”的老套路。

接下来,国产AI的战场不在参数,而在落地

当然,我们不能否认差距。在超大规模集群训练、多卡互联、分布式推理等方面,英伟达的CUDA生态依然是“教科书级”的存在。但今天的中国,不需要在所有赛道上都冲第一。我们缺的不是一台能跑1000TOPS的机器,而是一台能让普通人、小企业、基层单位用得起、用得稳、敢用的机器。

MTT S5000 + DeepSeek V3,不是终点,而是一个信号:国产AI算力,终于从“能跑”走向“能用”。它不靠吹参数,不靠PPT,靠的是工程师在机房里熬的夜、改的代码、调的参数。下一次,也许不是4000 tokens/秒,而是更低的电费、更短的交付周期、更安心的数据主权。

真正的科技自立,从来不是实验室里的冠军,而是工厂里那台默默运转、从不出错的设备。