137 个结果
从「座上宾」到「主战场」:具身智能如何完成对计算机视觉的「范式夺权」?| CVPR 2026
当机器从识别图像走向介入现实,视觉研究的边界也被重新划定。 作者丨郑佳美 编辑丨马晓宁 如果您漫步在 CVPR 2026 的会场,会产生一种强烈的错觉:自己是不是跑错了场馆,误入了 ICRA 或者 IROS 的现场?满屏的机械臂抓取、足式机器人的越野导航、以及在虚拟沙盒中进行千亿次迭代的物理模拟。 具身智能(Embodied AI)已经不再是视觉领域的一个“边缘分支”,而是以一种占据主舞台的姿态,成为视觉顶会最难被忽视的叙事之一。 这种范式的易位,让人们不禁回想起 2017 年机器人学界的顶级盛会 IROS。当时,机器人专家们打破了固守多年的运动学控制圈层,邀请计算机视觉泰斗、ImageNet 奠基人李飞飞做主题演讲。 在那个时刻,视觉对于机器人而言,更像是一个“尊贵的外部插件”:机器人学是主,计算机视觉是客。机器人真正的知识核心,仍然是运动学、动力学、控制、规划、执行器和系统工程;视觉负责把外部世界翻译成机器人能够使用的状态信息,却并不真正决定机器人学的问题边界。...

on 2026-05-15
CVPR 2026:深度学习的「标准件」,正在被逐个拆掉
注意力的浮点精度不是必须的,归一化流的"精确可逆"是可以放弃的…… 作者:马晓宁 编辑丨岑 峰 这里有一幢大楼,叫做深度学习。 过去几年,人们不停地给它加盖、扩建,越盖越高,越盖越复杂。这幢大楼叫 Transformer。盖楼时用了一大批标准件,浮点精度是它的钢筋,层归一化和残差连接是它的混凝土,因果掩码是它的承重隔断。旁边还有两栋附楼:一栋是扩散模型;另一栋归一化流。在漫长的施工期里,人们不断加装更粗的钢筋、更复杂的控制系统,以为这样做就能让这几栋楼更稳固高大美观。但是这样真的是对的吗? 可现在,这些施工的收益越来越小,而有人在附楼里试出了更好的新零件,量化、去噪、可逆约束都有了更轻便的替代品。于是,一批施工队同时进场,对准这些标准件开刀。他们不是来修修补补的,而是问一个更根本的问题:这根柱子、这面墙、这套管道,到底是真承重,还是只因为一直在那儿所以没人动?...

on 2026-05-21
复旦可信具身智能研究院&上海交大:给自动驾驶装上可检索的「空间记忆」丨CVPR 2026
从街景到仿真,离线地理信息正在成为车辆理解复杂道路的新线索。 作者丨郑佳美 编辑丨马晓宁 大模型的发展表明,智能体不能只依赖一次性的上下文输入,还需要能够检索、利用和管理长期记忆。自动驾驶也正在走向类似的路径:车辆不应只是根据当前摄像头和传感器看到的内容做即时判断,而应具备一种可检索的空间记忆,能够调取当前位置长期积累的道路结构信息。对于自动驾驶来说,这种记忆可以来自街景图、卫星图、历史地图和车队经验,从而当传感器“看不清、看不全、看不远”时,车辆仍然能理解自己所在的道路空间。 在真实道路上,这类问题几乎无处不在。夜间经过一个没有路灯的路口,摄像头里车道线被阴影吞没,雨天行驶在城区主干道,玻璃反光和水雾让路沿、人行横道变得模糊,驶入复杂立交或多岔路口时,车端传感器看到的只是当前一小段画面,却需要对完整道路结构做出判断。 人类司机在这种情况下,往往不会只依赖眼前一帧画面。我们会调动对道路的记忆:这里原本有几条车道,路口在哪里分叉,人行横道大概在什么位置,前方是不是高架匝道。...

on 2026-05-21
SeePhys Pro:重新审视多模态物理推理中的视觉理解与训练收益
随着多模态大模型在科学推理任务中的应用不断扩展,一个更基础的问题开始显现:当同一物理问题从文本表达转为图像表达时,模型是否仍能保持一致的推理能力?围绕这一问题,来自中山大学、苏黎世联邦理工学院、华为的研究者联合提出了SeePhys Pro ,这是一套面向多模态物理推理的细粒度评测与训练诊断框架。 项目同时发布细粒度模态迁移 benchmark、PhysRL-38K / PhysRL-8K 训练集、评测代码与 RLVR 复现实验,并作为 ICML 2026 AI4Math Workshop的挑战赛开放供社区测评。 01 核心亮点 • 渐进式模态迁移基准:通过四个语义对齐的子集逐步将结构、变量和完整题干从文本转入视觉模态。 • 多模态推理瓶颈:模型对变量与标签信息的视觉grounding能力远弱于对结构化视觉信息的理解。 • 强化学习数据库:发布 PhysRL-38K 与 视觉依赖的子集PhysRL-8K,用于推进物理推理领域的强化学习研究与训练结果诊断。...

on 2026-05-21
代码驱动的视觉感知:为什么说「看得懂代码」才是大模型攻克理科题的真正钥匙 |CVPR 2026
代码驱动的视觉感知,正在为大模型补上「看」这门必修课。 作者丨陈淑瑜 编辑丨岑 峰 如果把过去几年多模态大模型在STEM领域的进展放在一起审视,会发现一个相当微妙的错位。研究者们几乎把全部精力都押在了推理能力的提升上,强化学习、思维链、自我纠错……各种花式推理策略层出不穷,模型在文本推理基准上的得分也确实在节节攀升。 但一个尴尬的事实始终摆在那里:当模型被丢进一道需要看图才能解答的几何题时,它依然经常给出让人啼笑皆非的答案。 这中间到底出了什么问题? 过去,业界习惯性地把锅甩给“推理能力不足”,认为只要把CoO做得更长、把RL奖励设计得更精巧,模型自然能在视觉推理任务上迎头赶上。于是大量的工作涌向推理链路优化,视觉感知端却几乎被当成了一个“已经够用”的黑箱。 但上海交通大学人工智能研究院与Qwen团队联合提出的CodePercept(代码驱动的视觉感知),则给出了一个截然不同的诊断结果: 当前阶段,限制大模型STEM视觉推理的真正瓶颈,并非是推理能力,而是视觉感知。 ...

on 2026-05-21
OpenAI 已经开始卷隐私模型了?国内团队同期发布
端云 Agent 这两周有点热闹。 4 月 22 号,OpenAI 放出了 openai/privacy-filter,一个专门给 LLM 做隐私过滤的小模型;三周后的 5 月 12 日,一家叫记忆张量MemTensor的公司和荣耀AI团队关于隐私过滤的模型也在同期开源,并且一次性放出了两个大小的模型和对应的技术报告,并且从系统性能上看,占据了绝对的优势。 听起来有些巧合,实则两家团队从不同方向到达了同一个判断:Agent 时代,隐私保护必须前置到模型层。 OpenAI 在这件事上动作很早,privacy-filter的出现,意味着行业头部玩家已经把「LLM 隐私过滤」当作一个独立的基础设施在做。MemPrivacy 想回答的也是同一个问题——当 Agent 拥有长期记忆,隐私过滤应该被放在哪一层、用什么粒度去做。 在此之前,记忆张量 MemTensor 已经推出 MemOS,把 Agent 记忆从向量库或 RAG 插件,提升为可管理、可调度、可演化的「记忆操作系统」,业务已经在游戏、端侧智能硬件、金融、工业等场景落地。而MemPrivacy 更像是 MemOS...

on 2026-05-21
何恺明团队论文全景扫描:一场关于「生成范式」的多角度突破 | CVPR 2026
高度依赖扩散模型的图像生成范式,正在被重新审视。 作者丨陈淑瑜 编辑丨岑 峰 2025 年到 2026 年,如果要问生成式 AI 领域最值得关注的研究方向,流匹配(Flow Matching) 是一个无法绕开的答案。 从去年起,这个名字开始频繁出现在顶会论文里、被工业界反复讨论、被拿来和统治了图像生成领域长达五年的扩散模型正面比较。 所谓流匹配,本质上是用常微分方程路径(ODE path)替代扩散模型的随机微分方程路径,让数据从噪声到图像的转变不再依赖数百步迭代,从而在理论上实现更高效的生成。但从理论可行到工程落地,中间隔着无数技术细节——训练目标怎么设计、架构怎么选、速度和质量如何兼顾,每一步都是坑。 何恺明团队正是在这个节点上,密集地交出了一份多角度的答卷。 AI科技评论总结了何恺明团队近期在CVPR大会上发表上的论文: 2025 年 5 月,他们提出了均值流(MeanFlow),首次将"均值速度场"引入生成建模;同年年底,BiFlow 在归一化流框架上实现了 700 倍加速,将 FID 推到 2.39;几乎同一时间,Improved...

on 2026-05-21
相关文章