让AI看图后,不再只说“我看到了”,而是去“找答案”
你有没有遇到过这样的情况:发一张模糊的街景照片给AI,它却只会说“这是一条有树的街道”?它能看到,但不懂你真正想问的是——“这是哪条路?旁边那家店叫什么?能查到营业时间吗?”
现在,这个问题有了新解法。腾讯混元联合加州大学洛杉矶分校(UCLA)、香港中文大学等团队,正式开源了一套叫 OpenSearch-VL 的系统。它不是另一个“看图说话”的模型,而是一个能像人一样:先看清照片里到底是什么、再动手修图、然后上网查证、一步步推理,最终给出准确答案的搜索智能体。

数据不是靠“抄”出来的,是“设计”出来的
过去,很多多模态模型训练靠的是现成的图文对——图片配一句描述。但这种数据教出来的AI,只会“认图”,不会“找答案”。它看到“埃菲尔铁塔”,就直接说“这是埃菲尔铁塔”,根本不需要动脑子。
OpenSearch-VL 的团队反其道而行:他们从维基百科的链接网络里,手动构建了3.6万条“多跳问题”训练样本。比如:
- 图片是“一张有蓝色招牌的咖啡馆”,但招牌被遮住了一半;
- 问题不是“这是什么店?”,而是“这家店的老板去年在哪个城市开了第二家分店?”
答案不在图片里,也不在问题里——你得先用OCR识别出模糊的店名,再用反向搜索找到官网,查公司注册信息,最后才能答出来。
为了防止模型偷懒,他们还做了“干扰设计”:故意把关键词打乱、模糊、遮挡,逼模型不能靠猜,必须一步步动手查。这套数据叫 SearchVL-SFT,已经全量公开。
它不只是会搜图,还会“修图”
现实世界里的照片,哪有那么清晰?
你拍的菜单可能是反光的,拍的路牌是歪的,拍的商标是模糊的——传统模型一遇到这种图就直接放弃。但 OpenSearch-VL 集成了一个“视觉预处理工具箱”:
- OCR:读取图片里的文字,哪怕字迹潦草
- 图像锐化+超分辨率:把模糊的logo放大、增强细节
- 透视校正:把斜着拍的招牌“扶正”,还原真实形状
- 智能裁剪:自动框出最可能有信息的区域
整个过程像一个会拍照、会修图、会查资料的实习生——先动手把图“整理干净”,再开始搜索。这不是“AI+搜索”,而是“人一样的搜索流程”。
失败不是终点,是学习的机会
训练AI做复杂任务,最怕它“一错全错”。比如:第一步OCR识别失败,后面所有搜索都白费了。传统方法直接扔掉这条失败记录——但你扔掉的,可能是它前两步做得特别好的经验。
OpenSearch-VL 的核心突破之一,是他们设计的“故障感知强化学习”算法。它能自动识别:在哪一步出了问题?之前哪些操作是对的?
举个例子:模型先识别出“Starbucks”,但因为光线太暗,误判成“Starbuck”。虽然最终没找到答案,但算法会保留它“先识别文字→用反向搜图→查官网”这一整套有效策略。它不学“怎么赢”,而是学“怎么在输的时候,还能抓住有用的线索”。
这套方法叫“多轮故障感知 GRPO”,是团队自己打磨出来的,没用任何现成框架。
实测:开源模型,干掉了闭源的“天花板”
在7个主流多模态搜索评测中,OpenSearch-VL 的平均准确率比现有开源模型高出10%以上。在“模糊图片+复杂问题”的高难度任务中,它的表现已经接近谷歌、OpenAI等公司尚未公开的内部模型。
更关键的是:它不是“调参魔术”。所有训练数据、代码、模型权重,全部开源。你可以在GitHub上下载,用自己的照片测试,甚至加入新的工具——比如接入本地数据库、连接企业图谱、或者适配中文OCR。
我们为什么关心这个?
这不是又一次“AI看图讲故事”的秀技。这是在解决真实世界的问题:
- 你拍下一张国外药瓶的标签,想知道成分和副作用——AI能帮你查到FDA记录吗?
- 你在街角看到一辆没见过的车,想查型号和年份——它能通过车标+轮毂+车灯细节反向搜到车型库吗?
- 你拍下一张古籍残页,想确认出处——它能先修复字迹,再匹配文献数据库吗?
OpenSearch-VL 的意义,是把“AI能看懂图”,变成了“AI能帮你解决问题”。它不再是一个黑箱,而是一个你可以调试、改进、接入自己工作流的工具。
现在,它免费开放了。开发者、研究者、甚至普通用户,都可以下载、运行、改进它。
论文地址:https://arxiv.org/pdf/2605.05185
代码与数据已开源:https://github.com/TencentHunYuan/OpenSearch-VL