近日,商汤集团正式开源多模态自主推理模型 SenseNova-MARS(8B/32B 双版本)。该模型在多模态搜索与推理的核心基准测试中以 69.74 分超越 Gemini-3-Pro(69.06 分)、GPT-5.2(67.64 分)。
SenseNova-MARS 是首个支持动态视觉推理和图文搜索深度融合的 Agentic VLM 模型,它能自主规划步骤、调用工具,处理各种复杂任务。
在 MMSearch、HR-MMSearch、FVQA、InfoSeek、SimpleVQA、LiveVQA 等基准测试中,SenseNova-MARS 取得开源模型中的 SOTA 成绩,还超越 Gemini-3.0-Pro、GPT-5.2 等顶级闭源模型,在搜索推理和视觉理解两大核心领域全面领跑。
更多细节请参见技术报告:https://arxiv.org/abs/2512.24330
全能表现,自主解决复杂问题
SenseNova-MARS 在多项多模态搜索评测中展现出明显的领先优势,平均得分达到 69.74 分。在 MMSearch 榜单(图文搜索核心评测)中,模型以 74.27 分登顶;HR-MMSearch(高清细节搜索评测)中 54.43 分领先。
HR-MMSearch 的测试题目采用 305 张 2025 年最新的 4K 超高清图片,确保 AI 无法依赖旧知识'作弊';所有问题都针对图片中占比不到 5% 的细节,比如小标志、小字、微小物体,必须用图像裁剪工具才能看清;覆盖体育、娱乐文化、科学技术、商业金融、游戏、学术研究、地理旅行等八大领域,60% 的问题都需要至少使用三种工具才能解答。
无论是需要'查遍全网'的知识密集型任务,还是需要'火眼金睛'的细粒度视觉分析,它都是当前的性能领先者。
多工具协作,解决真实场景问题
SenseNova-MARS 能实实在在落地到生活和工作的场景,解决需要'多步骤推理 + 多工具协作'的问题。
普通 AI 的工具调用,要么只能搜文字,要么只能看图片,遇到需要'先放大细节、再识别物体、最后查背景'的复杂任务就束手无策。
面对识别赛车服微小 logo + 查询公司成立年份 + 匹配车手出生年月 + 计算差值'的复杂任务,SenseNova-MARS 可自主调用图像裁剪、文本 / 图像搜索工具,无需人工干预完成闭环解答。
SenseNova-MARS 能从产品和行业峰会的照片中,识别企业的标志,快速搜集产品、企业的信息,以及时间、数量、参数等细节要素,辅助分析行业情况和格局。
SenseNova-MARS 能从赛事照片中识别画面中的 logo、人物等信息,追溯比赛或人员背景信息,帮助快速补充重要细节。


