最新消息:关注人工智能 AI赋能新媒体运营

DeepSeek V4曝光:万亿参数、百万上下文、原生多模态

科技资讯 admin 浏览

DeepSeek V4 内测启动,百万上下文+多模态能力引爆开发者圈

就在上周,国内一家低调的AI公司DeepSeek悄然启动了名为“sealion-lite”的V4版本内测。参与测试的开发者和机构都签了严格的保密协议,连截图都不得外传。但一些内部流出的演示视频已经在技术圈悄悄流传——模型能一口气读完一本500页的PDF,分析整套开源项目代码,甚至根据文字描述自动生成结构复杂的SVG矢量图,连细节的渐变和路径都精准无误。

这不是普通的升级。相比V3,V4的上下文窗口直接跳到100万token,相当于一次处理《三体》全三册+《代码大全》+一个中型React项目的全部源码。而更让人意外的是,它不再只是文本模型——原生支持图像、图表、表格的联合理解。有测试者用它分析一张产品设计图,再配上一段文字说明,模型不仅能准确描述图像内容,还能反向生成符合设计意图的代码片段。

不靠英伟达,DeepSeek把重心转向华为昇腾

最让行业震动的,不是技术参数,而是背后的供应链选择。往年大模型发布前,都会提前把预览版交给英伟达、AMD做适配。但这次,DeepSeek没有这么做。据知情人士透露,早在两个月前,他们就已向华为昇腾团队开放了V4的完整训练框架和推理接口,双方联合优化了底层算子,甚至重新设计了部分模型结构以匹配昇腾芯片的内存调度机制。

这不是“国产替代”的口号,而是实打实的工程妥协——为了跑得更快、更稳,他们宁愿放弃现成的CUDA生态,重新打磨一套适配国产硬件的路径。有开发者在社区留言:“以前是‘模型跑在A100上’,现在是‘模型为昇腾而生’。”

发布时间逼近,全球开发者都在等那一声“上线”

GitHub上,DeepSeek的仓库最近一周更新了37次,大多是清理缓存、重构API接口、添加企业级鉴权模块。但细心的人发现,新增的几个端点名称——如 `/v4/longcontext/analyze` 和 `/v4/multimodal/extract` ——和内测中流传的功能完全对应。

“下周发布”这个说法,从技术论坛传到投资圈,再到Reddit和X平台的AI板块。有人算了一笔账:如果V4真能以万亿参数实现百万元上下文,且推理成本控制在GPT-4 Turbo的三分之一,那它将直接打破当前AI服务的价格锚点。一家上海的创业公司已经悄悄在内部测试V4的API,准备用它替代现有客服系统——“我们算过,单月能省下70%的云服务费用。”

没有发布会,没有PPT,没有明星代言。DeepSeek的风格一直很“工程师”:先做出来,再让你看见。但这一次,他们可能不只是在发布一个模型,而是在重新定义:什么样的AI,才配得上中国自己的算力底座。

DeepSeek V4 内测界面示意图