Logo
Loading...
期刊
专家
相关文章
126 个结果
北大王选所彭宇新团队:让多模态大模型学会「看懂物种关系」丨CVPR 2026
TARA:融合生物知识与视觉特征,提升模型推理能力。 作者丨郑佳美 编辑丨岑 峰 近年来,多模态大模型的发展正在不断推动视觉理解能力的提升。从图像分类、目标检测到视觉问答等任务,视觉系统已经能够在多种场景中实现较高水平的识别和推理能力。然而,在更复杂的层级视觉识别任务中,现有模型仍然存在明显不足。 现实世界中的许多视觉概念天然具有层级结构,例如生物分类体系中的“界—门—纲—目—科—属—种”,以及商品分类、医学诊断等领域中的多层级标签体系。这类任务不仅要求模型识别具体类别,还需要理解不同类别之间的层级关系和语义结构。但目前多数视觉模型仍然基于扁平分类框架进行训练,在进行层级预测时容易出现分类路径不一致或层级关系冲突等问题。 与此同时,在开放世界环境中,视觉模型还需要具备识别未知类别的能力。以生物识别任务为例,现实世界中的物种数量远远超过现有数据集的覆盖范围,新的物种仍在不断被发现。 当模型面对训练数据中未出现的类别时,往往难以进行合理推断。如何利用已有知识帮助模型理解类别之间的层级结构,并在有限数据条件下推断未知类别,逐渐成为当前视觉智能研究中的重要问题。...
川大雷印杰团队论文:用现实物理规律「重写」视频生成方式丨CVPR 2026
基于事件链与关键帧机制,提升时序与因果一致性。 作者丨郑佳美 编辑丨岑 峰 想象这样一些常见却又微妙的场景:一勺蜂蜜缓慢倒入热茶,本应拉出细长连续的丝状流动,但很多生成视频却会突然断裂甚至凭空消失;一块冰在室温下逐渐融化,真实过程应该是边缘先软化、体积变化、最终消散,而生成结果却常常直接从完整变成消失;一个玻璃球落入水中,本应经历接触水面、减速下沉、逐渐稳定的过程,但模型却可能只给出一个结果画面。 这些现象并不罕见,也正是当前视频生成技术最容易让人出戏的地方。画面看起来像,但过程不对,缺乏因果关系,也缺乏真实世界中那种连续演化的逻辑。 随着视频生成模型的发展,从 OpenAI Sora 到 Kling 等系统不断刷新视觉质量的上限,行业已经基本解决了清晰度和风格的问题,却逐渐暴露出更深层的瓶颈,即模型缺乏对物理规律的理解能力。 现有方法更多依赖数据驱动的模式匹配,本质上是在生成看起来合理的结果,而不是在模拟真实发生的过程,这也导致在流体、热变化以及多物体交互等场景中表现明显不足。 在这样的背景下,来自四川大学的雷印杰团队提出了一项新的研究工作《Chain of...