腾讯开源OpenSearch-VL：多模态深度搜索Agent全栈解决方案

让AI看图后，不再只说“我看到了”，而是去“找答案”

你有没有遇到过这样的情况：发一张模糊的街景照片给AI，它却只会说“这是一条有树的街道”？它能看到，但不懂你真正想问的是——“这是哪条路？旁边那家店叫什么？能查到营业时间吗？”

现在，这个问题有了新解法。腾讯混元联合加州大学洛杉矶分校（UCLA）、香港中文大学等团队，正式开源了一套叫 OpenSearch-VL 的系统。它不是另一个“看图说话”的模型，而是一个能像人一样：先看清照片里到底是什么、再动手修图、然后上网查证、一步步推理，最终给出准确答案的搜索智能体。

过去，很多多模态模型训练靠的是现成的图文对——图片配一句描述。但这种数据教出来的AI，只会“认图”，不会“找答案”。它看到“埃菲尔铁塔”，就直接说“这是埃菲尔铁塔”，根本不需要动脑子。

OpenSearch-VL 的团队反其道而行：他们从维基百科的链接网络里，手动构建了3.6万条“多跳问题”训练样本。比如：

答案不在图片里，也不在问题里——你得先用OCR识别出模糊的店名，再用反向搜索找到官网，查公司注册信息，最后才能答出来。

为了防止模型偷懒，他们还做了“干扰设计”：故意把关键词打乱、模糊、遮挡，逼模型不能靠猜，必须一步步动手查。这套数据叫 SearchVL-SFT，已经全量公开。

现实世界里的照片，哪有那么清晰？

你拍的菜单可能是反光的，拍的路牌是歪的，拍的商标是模糊的——传统模型一遇到这种图就直接放弃。但 OpenSearch-VL 集成了一个“视觉预处理工具箱”：

整个过程像一个会拍照、会修图、会查资料的实习生——先动手把图“整理干净”，再开始搜索。这不是“AI+搜索”，而是“人一样的搜索流程”。

训练AI做复杂任务，最怕它“一错全错”。比如：第一步OCR识别失败，后面所有搜索都白费了。传统方法直接扔掉这条失败记录——但你扔掉的，可能是它前两步做得特别好的经验。

OpenSearch-VL 的核心突破之一，是他们设计的“故障感知强化学习”算法。它能自动识别：在哪一步出了问题？之前哪些操作是对的？

举个例子：模型先识别出“Starbucks”，但因为光线太暗，误判成“Starbuck”。虽然最终没找到答案，但算法会保留它“先识别文字→用反向搜图→查官网”这一整套有效策略。它不学“怎么赢”，而是学“怎么在输的时候，还能抓住有用的线索”。

这套方法叫“多轮故障感知 GRPO”，是团队自己打磨出来的，没用任何现成框架。

在7个主流多模态搜索评测中，OpenSearch-VL 的平均准确率比现有开源模型高出10%以上。在“模糊图片+复杂问题”的高难度任务中，它的表现已经接近谷歌、OpenAI等公司尚未公开的内部模型。

更关键的是：它不是“调参魔术”。所有训练数据、代码、模型权重，全部开源。你可以在GitHub上下载，用自己的照片测试，甚至加入新的工具——比如接入本地数据库、连接企业图谱、或者适配中文OCR。

这不是又一次“AI看图讲故事”的秀技。这是在解决真实世界的问题：

OpenSearch-VL 的意义，是把“AI能看懂图”，变成了“AI能帮你解决问题”。它不再是一个黑箱，而是一个你可以调试、改进、接入自己工作流的工具。

现在，它免费开放了。开发者、研究者、甚至普通用户，都可以下载、运行、改进它。

论文地址：https://arxiv.org/pdf/2605.05185

代码与数据已开源：https://github.com/TencentHunYuan/OpenSearch-VL