商汤开源 SenseNova-MARS 模型：实现多模态搜索推理新突破

近日，商汤集团正式开源多模态自主推理模型 SenseNova-MARS（8B/32B 双版本）。该模型在多模态搜索与推理的核心基准测试中以 69.74 分超越 Gemini-3-Pro（69.06 分）、GPT-5.2（67.64 分）。

SenseNova-MARS 是首个支持动态视觉推理和图文搜索深度融合的 Agentic VLM 模型，它能自主规划步骤、调用工具，处理各种复杂任务。

在 MMSearch、HR-MMSearch、FVQA、InfoSeek、SimpleVQA、LiveVQA 等基准测试中，SenseNova-MARS 取得开源模型中的 SOTA 成绩，还超越 Gemini-3.0-Pro、GPT-5.2 等顶级闭源模型，在搜索推理和视觉理解两大核心领域全面领跑。

更多细节请参见技术报告：https://arxiv.org/abs/2512.24330

全能表现，自主解决复杂问题

SenseNova-MARS 在多项多模态搜索评测中展现出明显的领先优势，平均得分达到 69.74 分。在 MMSearch 榜单（图文搜索核心评测）中，模型以 74.27 分登顶；HR-MMSearch（高清细节搜索评测）中 54.43 分领先。

SenseNova-MARS 基准测试成绩对比

HR-MMSearch 的测试题目采用 305 张 2025 年最新的 4K 超高清图片，确保 AI 无法依赖旧知识'作弊'；所有问题都针对图片中占比不到 5% 的细节，比如小标志、小字、微小物体，必须用图像裁剪工具才能看清；覆盖体育、娱乐文化、科学技术、商业金融、游戏、学术研究、地理旅行等八大领域，60% 的问题都需要至少使用三种工具才能解答。

无论是需要'查遍全网'的知识密集型任务，还是需要'火眼金睛'的细粒度视觉分析，它都是当前的性能领先者。