Gairdao Community

Loading...

140 个结果

从「座上宾」到「主战场」：具身智能如何完成对计算机视觉的「范式夺权」？| CVPR 2026

当机器从识别图像走向介入现实，视觉研究的边界也被重新划定。作者丨郑佳美编辑丨马晓宁如果您漫步在 CVPR 2026 的会场，会产生一种强烈的错觉：自己是不是跑错了场馆，误入了 ICRA 或者 IROS 的现场？满屏的机械臂抓取、足式机器人的越野导航、以及在虚拟沙盒中进行千亿次迭代的物理模拟。具身智能（Embodied AI）已经不再是视觉领域的一个“边缘分支”，而是以一种占据主舞台的姿态，成为视觉顶会最难被忽视的叙事之一。这种范式的易位，让人们不禁回想起 2017 年机器人学界的顶级盛会 IROS。当时，机器人专家们打破了固守多年的运动学控制圈层，邀请计算机视觉泰斗、ImageNet 奠基人李飞飞做主题演讲。在那个时刻，视觉对于机器人而言，更像是一个“尊贵的外部插件”：机器人学是主，计算机视觉是客。机器人真正的知识核心，仍然是运动学、动力学、控制、规划、执行器和系统工程；视觉负责把外部世界翻译成机器人能够使用的状态信息，却并不真正决定机器人学的问题边界。...

on 2026-05-15

CVPR 2026：深度学习的「标准件」，正在被逐个拆掉

注意力的浮点精度不是必须的，归一化流的"精确可逆"是可以放弃的…… 作者：马晓宁编辑丨岑峰这里有一幢大楼，叫做深度学习。过去几年，人们不停地给它加盖、扩建，越盖越高，越盖越复杂。这幢大楼叫 Transformer。盖楼时用了一大批标准件，浮点精度是它的钢筋，层归一化和残差连接是它的混凝土，因果掩码是它的承重隔断。旁边还有两栋附楼：一栋是扩散模型；另一栋归一化流。在漫长的施工期里，人们不断加装更粗的钢筋、更复杂的控制系统，以为这样做就能让这几栋楼更稳固高大美观。但是这样真的是对的吗？可现在，这些施工的收益越来越小，而有人在附楼里试出了更好的新零件，量化、去噪、可逆约束都有了更轻便的替代品。于是，一批施工队同时进场，对准这些标准件开刀。他们不是来修修补补的，而是问一个更根本的问题：这根柱子、这面墙、这套管道，到底是真承重，还是只因为一直在那儿所以没人动？...

on 2026-05-21

复旦可信具身智能研究院&上海交大：给自动驾驶装上可检索的「空间记忆」丨CVPR 2026

从街景到仿真，离线地理信息正在成为车辆理解复杂道路的新线索。作者丨郑佳美编辑丨马晓宁大模型的发展表明，智能体不能只依赖一次性的上下文输入，还需要能够检索、利用和管理长期记忆。自动驾驶也正在走向类似的路径：车辆不应只是根据当前摄像头和传感器看到的内容做即时判断，而应具备一种可检索的空间记忆，能够调取当前位置长期积累的道路结构信息。对于自动驾驶来说，这种记忆可以来自街景图、卫星图、历史地图和车队经验，从而当传感器“看不清、看不全、看不远”时，车辆仍然能理解自己所在的道路空间。在真实道路上，这类问题几乎无处不在。夜间经过一个没有路灯的路口，摄像头里车道线被阴影吞没，雨天行驶在城区主干道，玻璃反光和水雾让路沿、人行横道变得模糊，驶入复杂立交或多岔路口时，车端传感器看到的只是当前一小段画面，却需要对完整道路结构做出判断。人类司机在这种情况下，往往不会只依赖眼前一帧画面。我们会调动对道路的记忆：这里原本有几条车道，路口在哪里分叉，人行横道大概在什么位置，前方是不是高架匝道。...

on 2026-05-21

SeePhys Pro：重新审视多模态物理推理中的视觉理解与训练收益

随着多模态大模型在科学推理任务中的应用不断扩展，一个更基础的问题开始显现：当同一物理问题从文本表达转为图像表达时，模型是否仍能保持一致的推理能力？围绕这一问题，来自中山大学、苏黎世联邦理工学院、华为的研究者联合提出了SeePhys Pro ，这是一套面向多模态物理推理的细粒度评测与训练诊断框架。项目同时发布细粒度模态迁移 benchmark、PhysRL-38K / PhysRL-8K 训练集、评测代码与 RLVR 复现实验，并作为 ICML 2026 AI4Math Workshop的挑战赛开放供社区测评。 01 核心亮点 • 渐进式模态迁移基准：通过四个语义对齐的子集逐步将结构、变量和完整题干从文本转入视觉模态。 • 多模态推理瓶颈：模型对变量与标签信息的视觉grounding能力远弱于对结构化视觉信息的理解。 • 强化学习数据库：发布 PhysRL-38K 与视觉依赖的子集PhysRL-8K，用于推进物理推理领域的强化学习研究与训练结果诊断。...

on 2026-05-21

代码驱动的视觉感知：为什么说「看得懂代码」才是大模型攻克理科题的真正钥匙｜CVPR 2026

代码驱动的视觉感知，正在为大模型补上「看」这门必修课。作者丨陈淑瑜编辑丨岑峰如果把过去几年多模态大模型在STEM领域的进展放在一起审视，会发现一个相当微妙的错位。研究者们几乎把全部精力都押在了推理能力的提升上，强化学习、思维链、自我纠错……各种花式推理策略层出不穷，模型在文本推理基准上的得分也确实在节节攀升。但一个尴尬的事实始终摆在那里：当模型被丢进一道需要看图才能解答的几何题时，它依然经常给出让人啼笑皆非的答案。这中间到底出了什么问题？过去，业界习惯性地把锅甩给“推理能力不足”，认为只要把CoO做得更长、把RL奖励设计得更精巧，模型自然能在视觉推理任务上迎头赶上。于是大量的工作涌向推理链路优化，视觉感知端却几乎被当成了一个“已经够用”的黑箱。但上海交通大学人工智能研究院与Qwen团队联合提出的CodePercept（代码驱动的视觉感知），则给出了一个截然不同的诊断结果：当前阶段，限制大模型STEM视觉推理的真正瓶颈，并非是推理能力，而是视觉感知。 ...

on 2026-05-21

OpenAI 已经开始卷隐私模型了？国内团队同期发布

端云 Agent 这两周有点热闹。 4 月 22 号，OpenAI 放出了 openai/privacy-filter，一个专门给 LLM 做隐私过滤的小模型；三周后的 5 月 12 日，一家叫记忆张量MemTensor的公司和荣耀AI团队关于隐私过滤的模型也在同期开源，并且一次性放出了两个大小的模型和对应的技术报告，并且从系统性能上看，占据了绝对的优势。听起来有些巧合，实则两家团队从不同方向到达了同一个判断：Agent 时代，隐私保护必须前置到模型层。 OpenAI 在这件事上动作很早，privacy-filter的出现，意味着行业头部玩家已经把「LLM 隐私过滤」当作一个独立的基础设施在做。MemPrivacy 想回答的也是同一个问题——当 Agent 拥有长期记忆，隐私过滤应该被放在哪一层、用什么粒度去做。在此之前，记忆张量 MemTensor 已经推出 MemOS，把 Agent 记忆从向量库或 RAG 插件，提升为可管理、可调度、可演化的「记忆操作系统」，业务已经在游戏、端侧智能硬件、金融、工业等场景落地。而MemPrivacy 更像是 MemOS...

on 2026-05-21

何恺明团队论文全景扫描：一场关于「生成范式」的多角度突破 | CVPR 2026

高度依赖扩散模型的图像生成范式，正在被重新审视。作者丨陈淑瑜编辑丨岑峰 2025 年到 2026 年，如果要问生成式 AI 领域最值得关注的研究方向，流匹配（Flow Matching）是一个无法绕开的答案。从去年起，这个名字开始频繁出现在顶会论文里、被工业界反复讨论、被拿来和统治了图像生成领域长达五年的扩散模型正面比较。所谓流匹配，本质上是用常微分方程路径（ODE path）替代扩散模型的随机微分方程路径，让数据从噪声到图像的转变不再依赖数百步迭代，从而在理论上实现更高效的生成。但从理论可行到工程落地，中间隔着无数技术细节——训练目标怎么设计、架构怎么选、速度和质量如何兼顾，每一步都是坑。何恺明团队正是在这个节点上，密集地交出了一份多角度的答卷。 AI科技评论总结了何恺明团队近期在CVPR大会上发表上的论文： 2025 年 5 月，他们提出了均值流（MeanFlow），首次将"均值速度场"引入生成建模；同年年底，BiFlow 在归一化流框架上实现了 700 倍加速，将 FID 推到 2.39；几乎同一时间，Improved...

on 2026-05-21

万字解读：为何长上下文治不了多模态 AI 的「健忘症」？丨GAIR Live 031

“多模态长记忆在「看得准、找得到、想得清」三大环节的底层逻辑与工程避坑指南。” 作者丨小雷哥编辑丨岑峰过去一年，的大模型技术演进中，“长上下文”成为了资本与技术角力的暴风眼。从 128K 到 1M，再到号称“无限长”的窗口，数字的跳跃给用户带来了一种“AI 已经博闻强识”的错觉。但行业内一直存在一个巨大的认知盲区：拥有超长上下文，是否等同于拥有了可靠的长程记忆？多模态长程记忆，究竟是通往“数字生命”的最后一块拼图，还是目前技术架构下难以逾越的雷区？本期 GAIR Live 线上圆桌邀请到了两位极具代表性的专家：任玺谕香港科技大学博士生、全球首个多模态长记忆评测标准 MemLens 主导作者；张源丘脑智能 CEO、Omni-Mem 框架负责人他们一位手持“最严苛的尺子”对全球 27 个顶级模型进行了深度体检，一位在长程记忆的产业一线，总结出了最真实的实战药方。在这场硬核对话中，他们拆解了多模态长记忆落地的三道生死关：看得准、找得到、想得清。 “看得准”：从 Caption 转向“证据指纹”的范式重构讨论指出，目前主流的...

on 2026-06-11

CVPR 2026 模型适应性研究盘点：从保留旧知识，到适应真实世界

稳定性，正在成为大模型落地的关键命题。作者丨郑佳美编辑丨马晓宁当 AI 模型从“单次完成任务”走向真实世界部署时，真正的挑战不再只是参数规模和单点性能，而是模型能否在变化中保持稳定。它要在持续出现的新类别中不遗忘旧知识，要从大规模真实数据中获得更强的泛化能力，要在多客户端、数据分布不断变化的环境下继续学习，也要把图像、视频和 3D 等不同视觉经验组织成统一理解。这种变化也体现在 CVPR 2026 的相关研究趋势中。越来越多工作不再只追求某个单一任务上的性能提升，而是更关注模型在长期学习、真实数据、分布变化和多模态协同中的稳定性与适应能力。换句话说，模型不仅要“会做”，还要能在复杂环境中持续做得好。这一趋势背后，反映的是大模型研究正在从“能力扩张”进入“能力管理”阶段。模型不仅要学得多，还要知道哪些旧知识值得保留，哪些经验可以迁移，哪些特征需要对齐，哪些模态能够互相补充。无论是持续学习、数字人建模、联邦学习，还是统一大视觉模型，研究者真正关心的都是同一个问题：如何让 AI 在复杂、动态、不完整的现实环境中，依然保持可泛化、可适应、可协同和可持续进化的能力。 ...

on 2026-06-11

CVPR 2026终极盘点：这5篇论文、1个演讲、3个展台，藏着计算机视觉下一个十年的答案

视觉-语言与多模态LLM论文占比一年飙涨5.7个百分点，CVPR正以前所未有的速度把具身智能推上主赛道。作者丨陈淑瑜编辑丨岑峰 16,092篇投稿，4,071篇录用，25.3%录取率，今年的CVPR创下了多项历史纪录。但比数字更具风向标意义的是行业风向：5篇获奖论文中至少3篇直指具身智能；展台上NVIDIA和Tesla正合力把机器人从实验室推向商业化；一场关于“可编程生物学”的重磅演讲，则彻底打破了计算机视觉与传统药物设计的边界。如果你没能亲自前往丹佛，这篇全景盘点将带你用最短的时间，一眼看透本届大会的全部精髓。 5篇论文：从4D重建到一步式编辑，具身智能全面接管今年CVPR的最佳论文奖项共有74篇入围，15篇进入决赛圈，最终5篇获奖。纵观这些获奖作品，能发现一个显而易见的行业共性：计算机视觉正从“被动感知”走向“主动理解与行动”。 ▎最佳论文：D4RT——让机器人“看见”第四个维度动态场景的4D重建一直是计算机视觉中的“硬骨头”。现有方法要么把任务拆成多个模块分别处理，慢且复杂。要么无法处理动态区域的对应关系，要么两者皆有。...

on 2026-06-11

User Profile