Logo
Loading...
期刊
专家
相关文章
126 个结果
中山大学梁小丹团队论文:让视频生成从「看起来真实」到「物理上正确」丨CVPR 2026
ProPhy:一种让视频生成同时具备视觉真实和物理合理能力的方法。 作者丨郑佳美 编辑丨岑 峰 试想一下,当机器人伸手去拿桌上的杯子,刚把杯子抬起来,又停住了,随后把它放回原位,然后再次伸手去拿。同一个动作,它重复了一遍,像是忘记了自己刚刚已经做过什么。类似的情况在真实环境中并不少见:按钮明明已经按下,却还在反复按,明明抽屉已经关好,却还在继续推。 过去两年,视频生成模型的发展呈现出一个非常明显的趋势:视觉质量在快速逼近真实世界。从最初的模糊片段,到如今可以生成具有复杂场景、多主体交互甚至长时序叙事的视频,模型在纹理、光影和语义一致性方面已经取得了长足进步。一些系统甚至被称为通用世界模型的雏形,试图通过数据驱动的方式重建现实世界的运行规律。 但随着分辨率和时长的提升,一个更深层的问题开始暴露出来:模型在视觉上越来越真实,却在物理上仍然不可信。也就是说,模型擅长生成看起来像真实世界的画面,却并不真正理解现实世界是如何运作的。这种差距在动态场景中尤为明显。当场景涉及接触、受力、流动或能量传递时,模型往往无法维持一致的物理逻辑。...
上交大 x vivo 团队:一个简单改动,让 diffusion 全面提升丨CVPR 2026
C²FG:利用 score 差异实现动态引导控制的生成方法。 作者丨郑佳美 编辑丨岑 峰 很多人第一次觉得图像生成模型已经足够强,往往是在它能快速画出一张看上去不错的图的时候。但真正开始频繁使用之后,又会慢慢发现另一面。 比如做一张活动主视觉,前几次生成里主体、色调、氛围都对了,可一放大细节就会发现手部、材质、边缘关系经不起看。再比如给一篇文章配封面,模型明明理解了主题,却总在最后呈现时把重点元素放错位置,或者让画面风格和语义之间出现轻微但难以忽视的偏差。 这正是当前生成式 AI 进入大规模应用之后,行业越来越在意的一类问题。今天的 diffusion 模型已经不缺生成能力,缺的是更稳定、更可控、也更符合真实使用过程的生成机制。 过去几年,行业主要依靠更大的模型、更多的数据和更强的算力推动效果上升,但当模型能力不断逼近高位之后,很多问题开始不再表现为能不能生成,而是能不能稳定地生成对。换句话说,竞争的重点正在从模型会不会画,转向模型能不能在每一步都朝着正确方向画。 这个变化非常关键,因为它意味着生成模型的发展正在从规模驱动走向机制驱动。 在这个背景下,来自上海交通大学与...
东南大学耿新团队:模型不是不会做,而是被「挤掉了能力」丨CVPR 2026
ESM:阻断子空间干扰,实现多任务能力稳定共存。 作者丨郑佳美 编辑丨岑 峰 你可能遇到过这样一种情况,一个模型原本只做一件事的时候表现很好,但一旦不断往里面加新任务,它反而开始变差了。不是彻底失效,而是变得不稳定,有些能力开始下降,有些结果开始波动。问题不在于模型不会,而在于它原本会的东西,被后来加入的任务“挤掉了一部分”。 这背后其实有一个很少被说清楚的问题。模型的能力并不是一块一块独立放进去的,而是共享同一套内部表示空间。简单理解,就是所有任务都在“用同一块地方存信息”。 当任务变多时,它们不是并排存在,而是在争这块空间里最重要的那些位置。谁占得多,谁就更稳定;谁被挤掉,谁的性能就下降。这就是为什么,多任务融合经常不是越多越强,而是越多越乱。 现实中,这种问题其实非常普遍。比如一个持续迭代的系统,不断往里加新能力,每一次看起来只是“多做了一件事”,但实际上是在重新分配内部的表示空间。如果没有好的机制,新的能力往往会影响旧的能力,最后系统变成一个需要不断修补的状态,而不是自然扩展。 在这样的背景下,来自东南大学的耿新团队提出了论文《Model Merging in...