Gairdao Community

SeePhys Pro：重新审视多模态物理推理中的视觉理解与训练收益

GAIR DAO 2026-05-21

随着多模态大模型在科学推理任务中的应用不断扩展，一个更基础的问题开始显现：当同一物理问题从文本表达转为图像表达时，模型是否仍能保持一致的推理能力？围绕这一问题，来自中山大学、苏黎世联邦理工学院、华为的研究者联合提出了SeePhys Pro ，这是一套面向多模态物理推理的细粒度评测与训练诊断框架。

项目同时发布细粒度模态迁移 benchmark、PhysRL-38K / PhysRL-8K 训练集、评测代码与 RLVR 复现实验，并作为 ICML 2026 AI4Math Workshop的挑战赛开放供社区测评。

01 核心亮点

• 渐进式模态迁移基准：通过四个语义对齐的子集逐步将结构、变量和完整题干从文本转入视觉模态。

• 多模态推理瓶颈：模型对变量与标签信息的视觉grounding能力远弱于对结构化视觉信息的理解。

• 强化学习数据库：发布 PhysRL-38K 与视觉依赖的子集PhysRL-8K，用于推进物理推理领域的强化学习研究与训练结果诊断。

• 遮蔽训练与思考：遮蔽训练图像后模型仍可变强，提示研究者需使用视觉一致性和准确性指标一同来判别RLVR是否真正提升多模态推理能力。

02 基准设计

SeePhys Pro 采用 same physics, different representation 的设计原则。每个种子问题保持物理系统、目标量、解题路径和答案一致，只改变关键信息的模态载体。

L1 为纯文本题，L2 将物理结构放入图像，L3 进一步将变量和标签放入图像，L4 将完整题干渲染为视觉输入。这一设计将文本推理、结构迁移、信息定位、端到端理解实现了分开评估。

图 1：SeePhys Pro 的四级模态迁移设计。

03 数据引擎

数据来自公共数据集、教材、奥赛档案、考试题和习题材料。候选题经过 OCR、去重、过滤、标准化、人工校验和图像重绘，形成可控的四级模态迁移样本。

最终 benchmark 包含 1,000 道种子题和 4,000 个四级变体，覆盖 6 个物理学科、38 个领域和 104 个细分方向。

图 2：SeePhys Pro 数据构建流程。

04 测评结果

评测覆盖 10 个闭源模型和 5 个开源模型。总体结果显示，当前模型在关键信息从文本转向图像时仍存在明显表示不稳定性。

平均准确率从 L1 的 49.2% 降至 L4 的 35.8%，平均总模态迁移 gap 为 13.4 个百分点。分阶段结果显示，视觉变量 grounding 是主要瓶颈，L2 到 L3 的平均 gap 达到 7.4 个百分点。

05 RLVR与遮蔽训练

论文进一步构建面向物理推理的强化学习训练集 PhysRL-38K ，研究 RLVR 能否缩小 SeePhys Pro 定义的模态迁移 gap。论文使用GSPO作为基准算法，验证发现PhysRL能够带来普遍的物理推理性能提升。

除Normal RL之外，我们引入了Blind RL和视觉必要性训练集PhysRL-8K来验证RLVR是否真正让模型学习到视觉推理能力。研究发现即使去除图像信息，经过强化学习的模型也能在多个当前流行的基准上获得提升。与此同时，总的模态迁移 gap 和变量 grounding gap 保持较大。这些反常的结果说明推理能力的提升往往源于文本捷径，而对于多模态理解能力的测评需要结合答案准确率与视觉一致性指标来共同分析。