最新消息:关注人工智能 AI赋能新媒体运营

DeepSeek 灰测多模态识图功能,实现图片智能理解

科技资讯 admin 浏览

DeepSeek 推出“识图模式”,上传图片就能问,真能看懂图了

DeepSeek 最近悄悄上线了一个新功能——“识图模式”,不声不响就加入了图像理解的队伍。和之前大家熟悉的“快速模式”“专家模式”并列,这次不是简单地把图里的字抠出来,而是真能看懂图里有什么、在发生什么。

你拍一张超市价签、一张手写菜单、甚至是一张乱糟糟的白板笔记,上传上去,它不仅能认出文字,还能告诉你:“这瓶牛奶保质期到下个月15号”“这道菜是宫保鸡丁,主要配料有花生和干辣椒”“这张图里有三个人,两个人在讨论,一个人在拍照”。不是靠关键词匹配,是像人一样“看”懂了。

image.png

不少参与灰度测试的用户反馈,反应快得离谱。有人测试了张复杂电路图,不到3秒就给出元件分布和功能说明;还有学生上传了课本上的手绘示意图,它直接拆解了每一部分的原理。有人调侃:“比我妈看我作业还快。”

但别急着全指望它。目前不是人人能用,很多人一上传就弹出“识图模式暂不可用,请稍后再试”。官方没说具体上线时间,但从用户反馈看,问题主要集中在高分辨率图处理不稳定、部分手写体识别不准,偶尔还会把背景纹理当文字。说明还在打磨,没到“完全体”。

这功能,普通人能用在哪儿?

别以为这是给技术宅玩的。真用起来,日常场景多得是:

  • 旅游时拍下外文菜单,不用再靠翻译APP逐字查,直接问它“这道菜辣不辣?”
  • 网购收到货,图和描述对不上?上传照片,让它帮你对比差异。
  • 孩子作业不会写,拍张题图,它能讲清楚解题思路,而不是只给答案。
  • 装修时拍下设计图,问“这个柜子深度够放被子吗?”它能结合尺寸给你判断。

关键是,它不光是“识别”,还能“对话”。你问“这图里有几个人在笑?”它会数;你问“这地图上哪个路口堵了?”它能结合交通标志和人流密度推断。这种能力,目前市面上能做的,屈指可数。

别光看热闹,试试看

如果你是经常拍照、拍图、拍笔记的人,不妨现在就去试试——哪怕只用一次。如果能用,它可能会成为你手机里最实用的“视觉助手”。如果还不行,也别急,官方没说什么时候全量开放,但既然灰度测试已经跑起来,距离正式上线,估计不会太远。

毕竟,能看懂图的AI,才真正开始懂我们的生活。