商汤开源SenseNova-MARS：引领多模态自主推理新范式

商汤开源SenseNova-MARS：首个能“自己找答案”的视觉智能模型

2026年1月29日，商汤科技正式开源了SenseNova-MARS——一款能看图、能思考、还能自己上网查资料的多模态模型。这次不只发布，还一口气放出8B和32B两个版本，免费开放给全球开发者使用。这不是又一个“看起来很厉害”的模型，而是一个真正开始像人一样“主动推理”的视觉智能体。

过去我们用视觉模型，通常是问：“这张图里有什么？”MARS不一样，它能回答：“这张图里的药瓶是什么牌子？有没有过期？附近哪家药店有货？”——它会自己拆解问题，先识别图像，再判断需要什么外部信息，然后实时搜索、比对、整合，最后给出有逻辑的答案。

这背后是行业首个真正融合“动态视觉推理”与“实时网络搜索”的架构。它不依赖预装数据库，也不靠人工标注的提示词。你给它一张街景图，它能认出招牌、查出店铺营业时间、对比同类门店评分，甚至推断出人流高峰时段——就像一个带着相机出门、边走边查手机的调查员。

商汤这次没玩虚的，两个版本都开源，用意很明确：

8B版本：轻量、快，能在手机、车载系统、工业摄像头等边缘设备上跑。比如快递员用手机拍下破损包裹，模型能立刻识别品类、判断责任方，现场生成报告。
32B版本：面向科研和高复杂度场景。医疗影像分析中，它能结合最新论文、临床指南和患者历史数据，辅助判断病灶性质；在农业领域，它能通过田间照片识别病虫害，联动气象与土壤数据库给出防治建议。

有开发者已经用8B版本在树莓派上跑通了“智能货架识别”项目，误报率比传统方案低40%。而32B版本在MMLU-Vision基准测试中，准确率领先同期开源模型近12个百分点。

过去很多大模型开源，只是“放个模型权重”，文档写得像说明书，跑起来一堆坑。MARS不一样：商汤同步开放了完整的推理流程代码、搜索插件接口、以及一套真实场景的测试数据集——包括1000+张带真实搜索需求的图片，比如药品标签、机械零件铭牌、户外广告牌等。

更关键的是，它不藏私。模型支持直接接入主流搜索引擎API（如Google、Bing），开发者可以自由替换或定制搜索源。这意味着，你可以在不违反法律的前提下，让模型在医疗、法律、教育等敏感领域，只使用可信数据源进行推理。

这不是一场技术秀，而是一次“把AI从实验室搬进现实”的尝试。它不再只是“回答你问的问题”，而是“主动帮你把问题解决掉”。

如果你正在做智能硬件、工业质检、远程医疗、教育辅助，或者只是想让AI真正“看得懂世界”，MARS，值得一试。