商汤开源SenseNova-MARS:首个能“自己找答案”的视觉智能模型
2026年1月29日,商汤科技正式开源了SenseNova-MARS——一款能看图、能思考、还能自己上网查资料的多模态模型。这次不只发布,还一口气放出8B和32B两个版本,免费开放给全球开发者使用。这不是又一个“看起来很厉害”的模型,而是一个真正开始像人一样“主动推理”的视觉智能体。
它不只是“看图说话”,而是“看图找答案”
过去我们用视觉模型,通常是问:“这张图里有什么?”MARS不一样,它能回答:“这张图里的药瓶是什么牌子?有没有过期?附近哪家药店有货?”——它会自己拆解问题,先识别图像,再判断需要什么外部信息,然后实时搜索、比对、整合,最后给出有逻辑的答案。
这背后是行业首个真正融合“动态视觉推理”与“实时网络搜索”的架构。它不依赖预装数据库,也不靠人工标注的提示词。你给它一张街景图,它能认出招牌、查出店铺营业时间、对比同类门店评分,甚至推断出人流高峰时段——就像一个带着相机出门、边走边查手机的调查员。
8B能跑在手机上,32B专攻专业场景
商汤这次没玩虚的,两个版本都开源,用意很明确:
- 8B版本:轻量、快,能在手机、车载系统、工业摄像头等边缘设备上跑。比如快递员用手机拍下破损包裹,模型能立刻识别品类、判断责任方,现场生成报告。
- 32B版本:面向科研和高复杂度场景。医疗影像分析中,它能结合最新论文、临床指南和患者历史数据,辅助判断病灶性质;在农业领域,它能通过田间照片识别病虫害,联动气象与土壤数据库给出防治建议。
有开发者已经用8B版本在树莓派上跑通了“智能货架识别”项目,误报率比传统方案低40%。而32B版本在MMLU-Vision基准测试中,准确率领先同期开源模型近12个百分点。
为什么这次开源,比以往更有意义
过去很多大模型开源,只是“放个模型权重”,文档写得像说明书,跑起来一堆坑。MARS不一样:商汤同步开放了完整的推理流程代码、搜索插件接口、以及一套真实场景的测试数据集——包括1000+张带真实搜索需求的图片,比如药品标签、机械零件铭牌、户外广告牌等。
更关键的是,它不藏私。模型支持直接接入主流搜索引擎API(如Google、Bing),开发者可以自由替换或定制搜索源。这意味着,你可以在不违反法律的前提下,让模型在医疗、法律、教育等敏感领域,只使用可信数据源进行推理。
这不是一场技术秀,而是一次“把AI从实验室搬进现实”的尝试。它不再只是“回答你问的问题”,而是“主动帮你把问题解决掉”。
如果你正在做智能硬件、工业质检、远程医疗、教育辅助,或者只是想让AI真正“看得懂世界”,MARS,值得一试。