Gairdao Community

Loading...

0 个结果

暂无内容

21 个结果

港中文薛天帆团队：实现 4K 全景视频生成，普通视频也能「长出空间」丨CVPR 2026

摘要/导语：CubeComposer：一种基于时空自回归的360°视频生成框架，兼顾清晰度、连贯性与沉浸感。作者：郑佳美编辑：岑峰很多人都经历过这样一种落差。现实里的空间是立体的，是包围人的，是可以转身、抬头、回望的，可一旦被手机或相机拍成视频，世界立刻被压缩成一个窄窄的取景框。暴雨来临前的天空并不只在镜头正前方，深夜街区的压迫感也不只来自路面，商场中庭、地下车站、展馆大厅、建筑内部，这些真正让人产生现场感的东西，往往恰恰存在于镜头之外。我们记录下了事件，却没有真正留住空间，保存了画面，却没有保存身处其中的感觉。这也是今天沉浸式内容产业最真实的困境之一。大家已经越来越明确地意识到，未来的视频不只是给人看，更是给人进入、环视和停留的。VR、数字展陈、虚拟空间、文旅体验、游戏场景、线上看房、远程教育，这些领域真正需要的都不是普通平面视频，而是能够承载空间感、方向感和临场感的全景内容。问题在于，需求已经跑在前面，生产方式却还停在后面。要拍摄高质量 360°...

on 2026-04-21

中山大学郭裕兰团队：数据充足却训练失败，多智能体到底卡在哪丨CVPR 2026

MangoBench：评估多智能体在多目标任务中协作能力的离线基准。作者丨郑佳美编辑丨岑峰很多人其实已经在不知不觉中接触到了多智能体协作带来的变化。电商大促时，仓库里往往不是一台机器人在工作，而是一整组机器人同时分拣、运输、避让和交接。自动驾驶真正困难的地方，也不只是让一辆车学会开，而是让很多辆车在同一条路上彼此配合。现实中的很多复杂任务，本质上都不是单个智能体可以独立完成的，智能系统也是一样。但现实世界并不会给这些系统太多试错机会。仓库机器人撞一次货架，工业机械臂装错一次零件，代价都是真实的。也正因为如此，越来越多研究开始转向离线强化学习，也就是先利用已有数据训练策略，而不是依赖实时试错。可一旦从单智能体走向多智能体，难度会迅速上升，因为系统不仅要学会做决策，还要在反馈有限的条件下学会协作。这正是当前行业里的一个现实瓶颈。很多方法在实验环境里效果不错，但到了离线多智能体场景中，往往很快暴露出问题。...

on 2026-04-21

北大王选所彭宇新团队：让多模态大模型学会「看懂物种关系」丨CVPR 2026

TARA：融合生物知识与视觉特征，提升模型推理能力。作者丨郑佳美编辑丨岑峰近年来，多模态大模型的发展正在不断推动视觉理解能力的提升。从图像分类、目标检测到视觉问答等任务，视觉系统已经能够在多种场景中实现较高水平的识别和推理能力。然而，在更复杂的层级视觉识别任务中，现有模型仍然存在明显不足。现实世界中的许多视觉概念天然具有层级结构，例如生物分类体系中的“界—门—纲—目—科—属—种”，以及商品分类、医学诊断等领域中的多层级标签体系。这类任务不仅要求模型识别具体类别，还需要理解不同类别之间的层级关系和语义结构。但目前多数视觉模型仍然基于扁平分类框架进行训练，在进行层级预测时容易出现分类路径不一致或层级关系冲突等问题。与此同时，在开放世界环境中，视觉模型还需要具备识别未知类别的能力。以生物识别任务为例，现实世界中的物种数量远远超过现有数据集的覆盖范围，新的物种仍在不断被发现。当模型面对训练数据中未出现的类别时，往往难以进行合理推断。如何利用已有知识帮助模型理解类别之间的层级结构，并在有限数据条件下推断未知类别，逐渐成为当前视觉智能研究中的重要问题。...

on 2026-04-22

2 个结果

生物学正在变得可编程？CVPR 2026最燃Keynote：AI药物设计已进入Agent时代｜ AI talk 39

AI视觉越强，越不像人？CVPR 2026 Keynote：深度网络与人类视觉正在分道扬镳 |

User Profile