Logo
Loading...
期刊
专家
SeePhys Pro:重新审视多模态物理推理中的视觉理解与训练收益
GAIR DAO 2026-05-21


随着多模态大模型在科学推理任务中的应用不断扩展,一个更基础的问题开始显现:当同一物理问题从文本表达转为图像表达时,模型是否仍能保持一致的推理能力?围绕这一问题,来自中山大学、苏黎世联邦理工学院、华为的研究者联合提出了SeePhys Pro ,这是一套面向多模态物理推理的细粒度评测与训练诊断框架。

项目同时发布细粒度模态迁移 benchmark、PhysRL-38K / PhysRL-8K 训练集、评测代码与 RLVR 复现实验,并作为 ICML 2026 AI4Math Workshop的挑战赛开放供社区测评。


01 核心亮点

• 渐进式模态迁移基准:通过四个语义对齐的子集逐步将结构、变量和完整题干从文本转入视觉模态。

• 多模态推理瓶颈:模型对变量与标签信息的视觉grounding能力远弱于对结构化视觉信息的理解。

• 强化学习数据库:发布 PhysRL-38K 与 视觉依赖的子集PhysRL-8K,用于推进物理推理领域的强化学习研究与训练结果诊断。

• 遮蔽训练与思考:遮蔽训练图像后模型仍可变强,提示研究者需使用视觉一致性和准确性指标一同来判别RLVR是否真正提升多模态推理能力。


02 基准设计

SeePhys Pro 采用 same physics, different representation 的设计原则。每个种子问题保持物理系统、目标量、解题路径和答案一致,只改变关键信息的模态载体。

L1 为纯文本题,L2 将物理结构放入图像,L3 进一步将变量和标签放入图像,L4 将完整题干渲染为视觉输入。这一设计将文本推理、结构迁移、信息定位、端到端理解实现了分开评估。


图 1:SeePhys Pro 的四级模态迁移设计。


03 数据引擎

数据来自公共数据集、教材、奥赛档案、考试题和习题材料。候选题经过 OCR、去重、过滤、标准化、人工校验和图像重绘,形成可控的四级模态迁移样本。

最终 benchmark 包含 1,000 道种子题和 4,000 个四级变体,覆盖 6 个物理学科、38 个领域和 104 个细分方向。



图 2:SeePhys Pro 数据构建流程。


04 测评结果

评测覆盖 10 个闭源模型和 5 个开源模型。总体结果显示,当前模型在关键信息从文本转向图像时仍存在明显表示不稳定性。

平均准确率从 L1 的 49.2% 降至 L4 的 35.8%,平均总模态迁移 gap 为 13.4 个百分点。分阶段结果显示,视觉变量 grounding 是主要瓶颈,L2 到 L3 的平均 gap 达到 7.4 个百分点。



05 RLVR与遮蔽训练

论文进一步构建面向物理推理的强化学习训练集 PhysRL-38K ,研究 RLVR 能否缩小 SeePhys Pro 定义的模态迁移 gap。论文使用GSPO作为基准算法,验证发现PhysRL能够带来普遍的物理推理性能提升。

除Normal RL之外,我们引入了Blind RL和视觉必要性训练集PhysRL-8K来验证RLVR是否真正让模型学习到视觉推理能力。研究发现即使去除图像信息,经过强化学习的模型也能在多个当前流行的基准上获得提升。与此同时,总的模态迁移 gap 和变量 grounding gap 保持较大。这些反常的结果说明推理能力的提升往往源于文本捷径,而对于多模态理解能力的测评需要结合答案准确率视觉一致性指标来共同分析。



图 3:Normal RL 与 Blind RL 在 SeePhys Pro 上的训练诊断。


06 跨基准测试与机制分析

Blind RL 的收益也出现在外部物理和数学 benchmark 上。机制分析进一步显示,blind gain 会随文本删除而衰减(删除50%之后尤为明显),且训练分布中的残余语言、模板、答案先验和题型规律都会贡献一部分非视觉收益。

这些结果提示,多模态 RLVR 的评估需要同时关注最终答案、模态迁移 gap、变量 grounding 和训练信号来源。



图 4:Normal RL 与 Blind RL 的跨 benchmark 对比。



图 5:Blind-training gains 的机制控制实验。


07 总结

SeePhys Pro 提供了一套从 test-time 模态迁移到 training-time RLVR 诊断的评测框架。它强调,多模态物理推理需要报告最终答案准确率,也需要报告跨表示一致性、视觉变量 grounding 和 gap closure。

这一框架为多模态推理场景下的模型评测提供了更细粒度的诊断工具,也为后续物理 RLVR 训练研究提供了可复现的数据和代码基础。


项目入口

主页:https://seephyspro.github.io/

GitHub仓库:https://github.com/AI4Phys/SeePhy-Pro

SeePhys Pro基准数据:https://huggingface.co/datasets/Kun-Xiang/SeePhysPro

PhysRL训练数据:https://huggingface.co/datasets/Kun-Xiang/PhysRL

此外,本项目还作为第三届ICML 2026 AI4Math Workshop的挑战赛开放,奖金高达2000美元,欢迎学界与工业届研究者参与打榜~

Workshop链接:https://ai4math2026.github.io/

Challenge链接:https://www.codabench.org/competiti