DeepSeek开启识图灰度测试，多模态视觉能力正式上线

DeepSeek-V4刚炸完，识图功能就来了

距离DeepSeek-V4发布才五天，官方就悄悄上线了“识图”功能，而且不是预告，是真能用了。现在你打开手机App或者网页端，输入框旁边多了一个小相机图标，点进去就能上传图片，系统会直接告诉你图里有什么——不是简单的标签，是能讲出人物姿态、场景氛围、甚至文物年代的完整描述。

实测：看图说话，真有点东西

我们拿了几张图试了试：一张故宫太和殿的现场照片，它不光说“宫殿”“红墙黄瓦”，还指出“屋脊有十个走兽，符合清代官式建筑规制”；一张街拍人像，它能分辨出模特穿的是哪款运动鞋，甚至注意到背景里便利店招牌的字体风格；最让人意外的是，有人上传了一张模糊的青铜器局部图，它居然推断出“可能是商代晚期的饕餮纹尊，纹饰风格接近安阳殷墟出土器物”——这已经不是“识别”，是“考古推理”了。

文字识别也靠谱。拍一张菜单，它能准确提取出所有菜品和价格，还能提醒你“这道‘松鼠鳜鱼’在江浙地区通常用整鱼制作，注意是否为拼接食材”。

但别指望它啥都懂

当然，它也不是神仙。我们试了张被撕成三块、拼错的海报，它卡住了；一张反光强烈的玻璃窗倒影，它把倒影当成了真实场景；还有人上传了刚上市的某品牌新款耳机，它完全不认识——不是不会，是它数据库里还没收录。

数数也容易出错。一张有17只鸟的风景照，它数成15只；一堆叠在一起的书，它说“大概5到8本”，不确定。你要是问“这幅画里左边的花瓶和右边的烛台哪个更旧”，它会认真分析材质、磨损痕迹，但结论有时对不上专家意见。

这波操作，不是加个功能，是换赛道

过去大家比谁的参数大、谁的代码能力强，现在开始比谁“看得懂生活”。DeepSeek这次没搞什么花哨的发布会，就默默开了个内测入口，但意义不小——它不再只是个写代码、答问题的“学霸”，开始学着当你的“眼睛”。

业内有人猜测，这可能是为后续“AI助手”铺路：以后你拍张药盒，它能告诉你禁忌；拍张发票，它能自动归类记账；拍张孩子画的画，它能分析情绪倾向。这些都不是炫技，是真能用进日常。

目前这个功能只对部分用户开放，官方没说什么时候全量上线。但如果你经常需要靠图找信息、看不清文字、或者只是想问问“这东西值不值钱”，现在就可以去试试——别等它完美了才用，真正的变化，往往从不完美的第一版开始。

DeepSeek-V4 多模态识图图片理解灰度测试

CB科技站

DeepSeek开启识图灰度测试，多模态视觉能力正式上线

DeepSeek-V4刚炸完，识图功能就来了

实测：看图说话，真有点东西

但别指望它啥都懂

这波操作，不是加个功能，是换赛道

与本文相关的文章