Gairdao Community

Loading...

140 个结果

中山大学梁小丹团队论文：让视频生成从「看起来真实」到「物理上正确」丨CVPR 2026

ProPhy：一种让视频生成同时具备视觉真实和物理合理能力的方法。作者丨郑佳美编辑丨岑峰试想一下，当机器人伸手去拿桌上的杯子，刚把杯子抬起来，又停住了，随后把它放回原位，然后再次伸手去拿。同一个动作，它重复了一遍，像是忘记了自己刚刚已经做过什么。类似的情况在真实环境中并不少见：按钮明明已经按下，却还在反复按，明明抽屉已经关好，却还在继续推。过去两年，视频生成模型的发展呈现出一个非常明显的趋势：视觉质量在快速逼近真实世界。从最初的模糊片段，到如今可以生成具有复杂场景、多主体交互甚至长时序叙事的视频，模型在纹理、光影和语义一致性方面已经取得了长足进步。一些系统甚至被称为通用世界模型的雏形，试图通过数据驱动的方式重建现实世界的运行规律。但随着分辨率和时长的提升，一个更深层的问题开始暴露出来：模型在视觉上越来越真实，却在物理上仍然不可信。也就是说，模型擅长生成看起来像真实世界的画面，却并不真正理解现实世界是如何运作的。这种差距在动态场景中尤为明显。当场景涉及接触、受力、流动或能量传递时，模型往往无法维持一致的物理逻辑。...

on 2026-04-23

西湖大学张驰团队：从视觉合成到空间理解，视频 AI 正在「转向」丨CVPR 2026

WorldForge：一种实现相机轨迹可控的视频生成方法。作者丨郑佳美编辑丨岑峰过去两年，视频生成的发展几乎是指数级的。从最早只能生成模糊片段，到如今可以生成具有叙事结构、光影一致性甚至风格控制的长视频，行业表面上已经接近一个阶段性成熟。但如果把评价标准从“能不能生成一段视频”稍微提高到“能不能控制镜头”，问题就会完全暴露出来。当前大多数模型仍然停留在一种近似二维的生成范式中，它们擅长在时间上延续视觉模式，却缺乏对空间结构的稳定建模能力。一旦涉及视角变化，模型往往无法保证同一个物体在不同帧之间的几何一致性，人物会发生细微但累积的漂移，建筑结构在移动中逐渐扭曲，遮挡关系也难以维持连续，这意味着模型生成的并不是一个被持续观察的世界，而是一系列在视觉上相似但空间上不一致的结果。在这样的行业背景下，西湖大学 AGI Lab 研究团队提出了论文《Taming Video Models for 3D and 4D Generation via Zero Shot Camera Control》。值得一提的是，这篇论文也入选了CVPR...

on 2026-04-23

西湖大学张驰团队：不重训，也能让视频生成更长更稳丨CVPR 2026

FreeLOC：一种面向长视频生成的分层自适应推理校正方法。作者丨郑佳美编辑丨岑峰过去一段时间，AI 视频最让人惊艳的，往往都是前几秒。人物状态自然，光影氛围到位，动作也足够流畅，很容易让人产生一种感觉，视频生成已经离真正可用不远了。但行业越往前走，问题也越清楚，真正难的从来不是做出一小段漂亮画面，而是能不能把这种质量稳定地延续下去。一旦视频时长被拉长，很多模型就会开始慢慢失稳，人物、场景和动作表面上还在延续，内部却已经出现细节漂移和时序松动。这也是为什么，今天 AI 视频行业真正卡住的地方，已经不只是能不能生成片段，而是能不能生成连续、稳定、可以承载完整情境的内容。比如一段厨房视频里，镜头从备菜推进到下锅，再切到摆盘，观众期待看到的是同一个空间、同一套器具和同一份食材被自然地串联起来。再比如一段城市通勤视频里，人物从地铁口走到街边店铺，镜头可以变化，但人物状态、环境关系和动作逻辑不能越走越散。只有解决这种长时间稳定性问题，AI 视频才真正有机会从展示走向创作和生产。也正是在这样的背景下，西湖大学的张驰团队提出了《Free-Lunch Long Video...

on 2026-04-23

上交大 x vivo 团队：一个简单改动，让 diffusion 全面提升丨CVPR 2026

C²FG：利用 score 差异实现动态引导控制的生成方法。作者丨郑佳美编辑丨岑峰很多人第一次觉得图像生成模型已经足够强，往往是在它能快速画出一张看上去不错的图的时候。但真正开始频繁使用之后，又会慢慢发现另一面。比如做一张活动主视觉，前几次生成里主体、色调、氛围都对了，可一放大细节就会发现手部、材质、边缘关系经不起看。再比如给一篇文章配封面，模型明明理解了主题，却总在最后呈现时把重点元素放错位置，或者让画面风格和语义之间出现轻微但难以忽视的偏差。这正是当前生成式 AI 进入大规模应用之后，行业越来越在意的一类问题。今天的 diffusion 模型已经不缺生成能力，缺的是更稳定、更可控、也更符合真实使用过程的生成机制。过去几年，行业主要依靠更大的模型、更多的数据和更强的算力推动效果上升，但当模型能力不断逼近高位之后，很多问题开始不再表现为能不能生成，而是能不能稳定地生成对。换句话说，竞争的重点正在从模型会不会画，转向模型能不能在每一步都朝着正确方向画。这个变化非常关键，因为它意味着生成模型的发展正在从规模驱动走向机制驱动。在这个背景下，来自上海交通大学与...

on 2026-04-23

东南大学耿新团队：模型不是不会做，而是被「挤掉了能力」丨CVPR 2026

ESM：阻断子空间干扰，实现多任务能力稳定共存。作者丨郑佳美编辑丨岑峰你可能遇到过这样一种情况，一个模型原本只做一件事的时候表现很好，但一旦不断往里面加新任务，它反而开始变差了。不是彻底失效，而是变得不稳定，有些能力开始下降，有些结果开始波动。问题不在于模型不会，而在于它原本会的东西，被后来加入的任务“挤掉了一部分”。这背后其实有一个很少被说清楚的问题。模型的能力并不是一块一块独立放进去的，而是共享同一套内部表示空间。简单理解，就是所有任务都在“用同一块地方存信息”。当任务变多时，它们不是并排存在，而是在争这块空间里最重要的那些位置。谁占得多，谁就更稳定；谁被挤掉，谁的性能就下降。这就是为什么，多任务融合经常不是越多越强，而是越多越乱。现实中，这种问题其实非常普遍。比如一个持续迭代的系统，不断往里加新能力，每一次看起来只是“多做了一件事”，但实际上是在重新分配内部的表示空间。如果没有好的机制，新的能力往往会影响旧的能力，最后系统变成一个需要不断修补的状态，而不是自然扩展。在这样的背景下，来自东南大学的耿新团队提出了论文《Model Merging in...

on 2026-04-23

迈向无缝共生：大模型GUI Agent的「屏幕图灵测试」与拟人化之路

一个只会高效执行任务的Agent，真的能在真实的人类数字生态中存活下来吗？论文作者包括来自上海交通大学的 Jiachen Zhu、Congmin Zheng、Yong Yu、Lingyu Yang、Weinan Zhang、Rong Shan、Weiwen Liu、Jianghao Lin，以及来自卡内基梅隆大学的 Zeyu Zheng。原论文名称： TURING TEST ON SCREEN: A BENCHMARK FOR MOBILE GUI AGENT HUMANIZATION https://huggingface.co/papers/2604.09574 https://arxiv.org/abs/2604.09574 多模态大模型（LMMs）的出现从根本上重塑了人机交互的格局。通过赋予系统感知视觉界面并执行复杂交互的能力，我们正在见证从静态脚本向自动化图形用户界面（GUI）Agent的范式转变。这些Agent能够模拟用户，在移动设备APP中执行任务，使人们有望将大量数字化任务交给AI来自动化完成。...

on 2026-04-23

北大林宙辰团队：从最优传输角度训练时序预测模型丨ICLR 2026

DistDF：从点对点误差转向联合分布对齐，重构时间序列预测的损失函数。作者丨郑佳美编辑丨岑峰在时间序列预测研究中，一个耐人寻味的现象长期存在：一方面，模型结构不断演进，从循环网络到 Transformer，再到频域与混合结构；另一方面，几乎所有方法在训练阶段依赖同一类损失函数，即以均方误差（MSE）为代表的点对点误差。这使得时间序列预测在方法论层面呈现出一种隐性的停滞，即研究重心持续向模型表达能力倾斜，而对损失函数所隐含的统计假设缺乏系统反思。点对点误差的核心假设在于，标签序列中的各时间步可被视为给定历史条件下相互独立的预测对象。然而，这一假设与时间序列数据的生成机制之间始终存在偏差。真实世界中的时间序列由随机过程演化而来，不同时间点之间存在显著的相关关系。将多步预测问题拆解为一组独立的回归任务，不可避免地为损失函数引入了结构性偏差，使模型难以学习标签序列的整体形态、相关结构以及条件依赖关系。针对这一问题，北京大学林宙辰团队深入剖析了此类结构性偏差的成因。在此基础上，团队提出了 DistDF：一种通过联合分布对齐训练预测模型的损失函数。DistDF...

on 2026-04-23

腾讯混元团队最新研究：让 AI 从「固定模型」走向「实时适配系统」

HY-WU ：一种在推理阶段动态生成模型参数，而非依赖固定参数处理任务的方法。作者丨郑佳美编辑丨岑峰很多机器学习系统在设计时都默认一个前提：模型一旦训练完成，其参数基本是固定的。无论输入是什么样的数据，模型都会依赖同一套参数完成推理。这种范式在过去十多年里非常成功，模型能力的提升主要依赖更大的模型规模、更多的数据以及更长时间的训练。但当人工智能逐渐进入更加复杂的应用环境时，这种“固定参数”的方式也开始显现出局限。现实任务往往具有高度多样性，不同用户需求、不同任务目标甚至可能彼此冲突。例如在图像编辑场景中，同一张图片可能会对应完全不同的修改要求。有的任务需要增强细节，例如去模糊或图像修复，而另一些任务则需要弱化细节，例如增加模糊效果或模拟老照片的老化过程。如果模型始终依赖同一套参数，它往往只能在不同目标之间做出折中，从而影响最终效果。过去，研究人员通常通过 domain adaptation...

on 2026-04-23

一分钟的奇迹与幻觉：实测世界模型Happy Oyster

具备初步的世界状态跟踪能力，但不适合强约束、高可预测性的系统任务。作者丨冯逸飞编辑丨马晓宁梁丙鉴 4 月 16 日，阿里发布了主打实时构建和交互的开放式世界模型产品 Happy Oyster。基于原生多模态架构，Happy Oyster 支持多模态输入与音视频联合生成，且生成过程中能够持续接收用户指令，实现画面实时响应、持续演绎。如果说 AGI 是终极愿景，具身智能是物质载体，那么世界模型就是这一切的认知基础。它在技术脉络中占据了一个极其特殊的位置，那就是从大模型的“预测下一个词“，向”预测下一个物理状态“的演进节点。这也让世界模型成为了一条炙手可热的赛道。16 日当天，腾讯开源了 HY-World 2.0，次日群核科技在港交所上市，成为“全球空间智能第一股“。视角拉得更远，谷歌、英伟达、Meta，以及李飞飞坐镇的 World Labs 都早就对这一赛道有所布局。竞争逐渐升温之际，我们不禁要问，在最宏伟的愿景实现之前，有哪些先期落地场景可以为日后的争夺输血？...

on 2026-04-24

为什么记忆成为下一代 AI 的「核心变量」 | GAIR Live 20

“记忆”有望成为 AI 在产业界红利释放的最大驱动引擎。作者丨岑峰编辑丨马晓宁工智能在过去的十年中，以惊人的速度革新了信息处理和内容生成的方式。然而，无论是大语言模型（LLM）本体，还是基于检索增强生成（RAG）的系统，在实际应用中都暴露出了一个深层的局限性：缺乏跨越时间的、可演化的、个性化的“记忆”。它们擅长瞬时推理，却难以实现持续积累经验、反思历史、乃至真正像人一样成长的目标。近日，雷峰网主办了一场主题为《智能始于记忆：Agent Memory 的技术演化过程》的线上圆桌论坛，邀请到了金融行业的资深领域专家何逸凡、腾讯 AI Lab 专家研究员王琰、上海交通大学人工智能学院副教授陈思衡三位重量级嘉宾，他们与主持人、记忆张量CTO李志宇一起，他们围绕记忆的本质定义、与传统技术的区别、系统架构的瓶颈，以及未来在金融、教育、游戏等领域的商业化范式，展开了系统性的探讨。何逸凡表示，记忆系统是大模型乃至整个 AI 发展至今，除了核心大模型结构研究之外，可能最为关键的领域之一。当前传统 RAG...

on 2026-04-24

User Profile