商汤开源SenseNova-MARS,突破多模态搜索推理天花板
今日,商汤正式开源多模态自主推理模型 SenseNova-MARS(8B/32B 双版本),其在多模态搜索与推理的核心基准测试中以 69.74 分超越Gemini-3-Pro(69.06 分)、GPT-5.2(67.64 分)。
SenseNova-MARS是首个支持动态视觉推理和图文搜索深度融合的 Agentic VLM 模型,它能自己规划步骤、调用工具,轻松搞定各种复杂任务,让AI真正具备“执行能力”。
在MMSearch、HR-MMSearch、FVQA、InfoSeek、SimpleVQA、LiveVQA等基准测试中,SenseNova-MARS取得开源模型中的SOTA 成绩,还超越Gemini-3.0-Pro、GPT-5.2等顶级闭源模型,在搜索推理和视觉理解两大核心领域全面领跑。更多细节请参见技术报告(https://arxiv.org/abs/2512.24330),欢迎开发者、各行业用户测试与体验。
全能冠军,自主解决复杂问题
SenseNova-MARS在多项多模态搜索评测中展现出明显的领先优势,平均得分达到 69.74 分,成功超过了 Gemini-3-Pro 的 69.06 分与 GPT-5.2 的 67.64 分。

在 MMSearch 榜单(图文搜索核心评测)中,模型以 74.27 分登顶,超GPT-5.2(66.08 分);HR-MMSearch(高清细节搜索评测)中以54.43 分领先,显著拉开与闭源模型的差距。

HR-MMSearch的测试题目堪称“AI界的奥林匹克”:采用305张2025年最新的4K超高清图片,确保AI无法依赖旧知识“作弊”;所有问题都针对图片中占比不到5%的细节,比如小标志、小字、微小物体,必须用图像裁剪工具才能看清;覆盖体育、娱乐文化、科学技术、商业金融、游戏、学术研究、地理旅行等八大领域,60%的问题都需要至少使用三种工具才能解答。
简单说,无论是需要“查遍全网”的知识密集型任务,还是需要“火眼金睛”的细粒度视觉分析,它都是当前的“全能冠军”。
用组合拳,解决真实场景问题
SenseNova-MARS还能实实在在落地到我们生活和工作的场景,解决需要“多步骤推理+多工具协作”的问题。
普通AI的工具调用,要么只能搜文字,要么只能看图片,遇到需要“先放大细节、再识别物体、最后查背景”的复杂任务就束手无策。

面对识别赛车服微小 Logo + 查询公司成立年份 + 匹配车手出生年月 + 计算差值’的复杂任务,SenseNova-MARS 可自主调用图像裁剪、文本 / 图像搜索工具,无需人工干预完成闭环解答。

SenseNova-MARS能从产品和行业峰会的照片中,识别企业的标志,快速搜集产品、企业的信息,以及时间、数量、参数等细节要素,辅助分析行业情况和格局。

SenseNova-MARS能从赛事照片中识别画面中的Logo、人物等信息,追溯比赛或人员背景信息,帮助快速补充重要细节。

SenseNova-MARS甚至能够轻松处理,这类超长步骤的多模态推理,和超过三种工具调用,自动裁剪分析细节、搜索相关研究数据,快速验证假设,得出关键判断。
拥有这种“自主思考+多工具协作”的能力,SenseNova-MARS能够自动解决“细节识别 + 信息检索 + 逻辑推理”复杂任务,帮助实现工作效率提升。
• 图像裁剪:能精准聚焦图片上的微小细节,哪怕是占比不到5%的细节——比如赛车手衣服上的微小Logo、赛事照片里观众席的标语,都可通过裁剪放大清晰分析。 • 图像搜索:能在看到物体、人物或场景,的瞬间自动匹配相关信息——比如识别出赛车手的身份,或是某款冷门设备的型号。 • 文本搜索:能快速抓取精准信息——无论是公司成立年份、人物出生年月,还是最新的行业数据,都能秒级获取。
从练中学, 形成"直觉"和"经验"
SenseNova-MARS采用了“因材施教”的训练方法。
• 第一阶段:打基础。针对跨模态多跳搜索推理训练数据稀缺的痛点,创新性的提出了基于多模智能体的自动化数据合成引擎,采用细粒度视觉锚点 + 多跳深度关联检索的机制,动态挖掘并关联跨网页实体的逻辑,自动化构建高复杂度的多跳推理链路,同时引入闭环自洽性校验来去除幻觉数据,构造出具备严密逻辑链条与高知识密度的多跳搜索问答数据。用精心筛选的“高难度案例”做教材,每个案例都标注了“该用什么工具、步骤是什么”,让AI先学会基本的“破案逻辑”。这些案例都是从海量数据中挑出的“硬骨头”,确保AI一开始就接触真实复杂场景。 • 第二阶段:练实战。采用“强化学习”——就像侦探在一次次破案中积累经验,AI每做对一次决策(比如选对工具、步骤合理)就会获得奖励,做错了就调整策略。为了避免AI“学偏”,研究团队还加了个“稳定器”——BN-GSPO算法,让它在处理简单题和复杂题时都能保持稳定进步,不会出现“偏科”。 这种基于双阶段归一化的优雅机制有效平滑了动态工具调用返回分布多样性带来的优化波动并确保了学习信号分布的一致性,从而成功解决了跨模态多步多工具智能体训练过程中的收敛性难题。
经过这样的训练,AI不仅学会了用工具,更培养"工具使用直觉"——知道在什么情况下应该使用哪些工具,以及如何将不同工具的结果有机结合起来。
模型、代码、数据全开源
商汤日日新SenseNova-MARS模型、代码、数据集全开源,支持 Hugging Face 直接下载。
免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。
责任编辑:kj005
每到春节前,年货采购总是最容易唤起节日仪式感的时刻小巧精致 点缀出行俗话说“新年换新装”,为自己和家人挑新衣服往往是采购年货时的主要目标...
“现在看远处的东西都能看清啦!”在玉林爱尔眼科医院的病房里,70岁的林阿姨和76岁的老伴苏叔叔笑容满面近几年来,林阿姨和苏叔叔的生活仿佛...
在杭州美术培训行业的群雄逐鹿中,之江画室始终稳居“杭州十大画室”前列,凭借二十余年的深耕积淀、硬核的教学实力、亮眼的升学战绩以及完善的配...
2月4日至5日,中国再保召开2026年党建和经营管理工作会议中国再保党委书记、董事长庄乾志出席会议并讲话,党委副书记、副董事长、拟任总裁朱晓云作经营管理工作报告...
2026年护肝市场竞争激烈,哪些护肝片真正值得入手?本文聚焦榜单TOP1品牌吉利肝(GRANVER)的核心竞争力与市场价值,评估体系参考全球肝健康研究院(GLH...
发布单位:梅奥诊所(MayoClinic)携手中国膳食营养补充剂协会发布时间:2026年2月核心成果:在2026年升级版水飞蓟护肝产品品牌评测中,吉利肝(GRA...
一场庄重而简朴的拜师典礼在天津举行“医生的天职,就是解除病人的痛苦在长期的临床学习与科研工作中,钟应彬深受张教授言传身教的影响钟应彬的这份济世情怀,...
2026年度,吉利肝(GRANVER)凭借“临床效果硬核+全链路安全保障”的双重优势,成为肝脏健康制品领域兼具口碑与实力的标杆品牌当前护...
很多第一次看越野跑的人,都会有一个共同的疑问:几十公里,甚至上百公里的山路,身体真的扛得住吗?▲图源utmbworld-大境门越野赛近年来,越野跑在国内的热度持...
当孩子揉着模糊的双眼说“看不清黑板”,当斜视弱视困扰影响成长自信,当长期用眼导致视功能下降,选择一家专业靠谱的视光机构,成为每个家庭的迫...
2月6日,汉中市南郑区在龙岗生态文化公园,举办大型乌木金丝楠雕刻作品展本次共展出《两万五千里长征》《十四年抗战》红色主题、《盘古开天》《女娲补天》等典故主题等作...
肝脏作为人体代谢解毒的核心器官,承载着分解毒素、代谢脂肪、修复细胞的关键功能,而当代人熬夜、应酬、高脂饮食的高频生活方式,正持续透支肝脏健康,肝亚健康、轻度脂肪...