126 个结果
从实验室Demo到国民级健康伙伴:医疗Agent离"进指南"还有多远?| GAIR Live 024
拆解医学专用大模型如何跨越从“信息检索”到“严肃医疗”服务的鸿沟,打造“以患者为中心”的AI医疗生态。 作者丨岑峰 随着大语言模型从生成式对话向专业垂直领域的深度渗透,医疗健康正成为 AGI 落地最具价值也最受关注的“深水区”。过去,大众在面临健康困惑时,习惯于在搜索引擎的碎片化信息中自行“拼图”,往往陷入信息矛盾与焦虑。而今天,以蚂蚁集团“阿福”为代表的医学大模型,正凭借其强大的知识整合能力与多模态交互体验,迅速从实验室的 Demo 演变为拥有千万级日活、覆盖全年龄段的“国民级健康伙伴”。 然而,当 AI 开始介入严肃医疗与日常健康管理,一系列深层命题也随之而来:垂类模型如何在通用模型之上构建不可替代的专业壁垒?如何平衡医学的科学严谨性与人文关怀的温情?在面临“AI 迎合性”导致的伦理风险时,我们该如何划定安全红线? 为此,本期 GAIR Live 举办了题为“AI for Health:从‘实验室...

on 2026-04-21
港中文薛天帆团队:实现 4K 全景视频生成,普通视频也能「长出空间」丨CVPR 2026
摘要/导语:CubeComposer:一种基于时空自回归的360°视频生成框架,兼顾清晰度、连贯性与沉浸感。 作者:郑佳美 编辑:岑峰 很多人都经历过这样一种落差。现实里的空间是立体的,是包围人的,是可以转身、抬头、回望的,可一旦被手机或相机拍成视频,世界立刻被压缩成一个窄窄的取景框。 暴雨来临前的天空并不只在镜头正前方,深夜街区的压迫感也不只来自路面,商场中庭、地下车站、展馆大厅、建筑内部,这些真正让人产生现场感的东西,往往恰恰存在于镜头之外。我们记录下了事件,却没有真正留住空间,保存了画面,却没有保存身处其中的感觉。 这也是今天沉浸式内容产业最真实的困境之一。大家已经越来越明确地意识到,未来的视频不只是给人看,更是给人进入、环视和停留的。VR、数字展陈、虚拟空间、文旅体验、游戏场景、线上看房、远程教育,这些领域真正需要的都不是普通平面视频,而是能够承载空间感、方向感和临场感的全景内容。 问题在于,需求已经跑在前面,生产方式却还停在后面。要拍摄高质量 360°...

on 2026-04-21
后AlphaFold时代的冷思考,AI制药的破与立 | GAIR live 028
AI究竟是药物研发的颠覆者,还是仅仅是个高级的“加速器”? 作者丨岑峰 过去几年,无论是AlphaFold家族的惊艳迭代,还是各类生成式AI在分子设计上的“狂飙”,都给外界营造出一种错觉:AI似乎即将彻底颠覆制药行业,甚至有人开始倒数“全AI设计新药"上市的日期。 然而,真实情况却是:那些在硅基世界里被打分极高、看似完美的分子,却在进入真实的碳基人体后屡屡折戟。在真实的临床二、三期试验中,AI制药的失败率依然居高不下。 在AI算力呈指数级暴涨的今天,为何药物研发却陷入了“反摩尔定律”——技术越来越先进,投入的资金越来越庞大,但新药产出率却在持续下降? 在这场算力与生命科学的碰撞中,AI究竟是颠覆者,还是仅仅是个高级的“加速器”? 近日,雷峰网及AI科技评论组织了一场主题为“后AlphaFold时代AI制药的破与立”线上圆桌,南佛罗里达大学教授许东、同济大学生命科学与技术学院教授刘琦、香港大学数据科学与药学系副教授张清鹏,三位横跨计算科学、生物信息学与复杂系统科学的顶尖学者,展开了一场两小时的深度对谈。 对于没有时间观看直播的读者,我们提炼了本次圆桌的四大核心洞察: ...

on 2026-04-21
中山大学郭裕兰团队:数据充足却训练失败,多智能体到底卡在哪丨CVPR 2026
MangoBench:评估多智能体在多目标任务中协作能力的离线基准。 作者丨郑佳美 编辑丨岑 峰 很多人其实已经在不知不觉中接触到了多智能体协作带来的变化。 电商大促时,仓库里往往不是一台机器人在工作,而是一整组机器人同时分拣、运输、避让和交接。自动驾驶真正困难的地方,也不只是让一辆车学会开,而是让很多辆车在同一条路上彼此配合。现实中的很多复杂任务,本质上都不是单个智能体可以独立完成的,智能系统也是一样。 但现实世界并不会给这些系统太多试错机会。仓库机器人撞一次货架,工业机械臂装错一次零件,代价都是真实的。也正因为如此,越来越多研究开始转向离线强化学习,也就是先利用已有数据训练策略,而不是依赖实时试错。 可一旦从单智能体走向多智能体,难度会迅速上升,因为系统不仅要学会做决策,还要在反馈有限的条件下学会协作。 这正是当前行业里的一个现实瓶颈。很多方法在实验环境里效果不错,但到了离线多智能体场景中,往往很快暴露出问题。...

on 2026-04-21
北大王选所彭宇新团队:让多模态大模型学会「看懂物种关系」丨CVPR 2026
TARA:融合生物知识与视觉特征,提升模型推理能力。 作者丨郑佳美 编辑丨岑 峰 近年来,多模态大模型的发展正在不断推动视觉理解能力的提升。从图像分类、目标检测到视觉问答等任务,视觉系统已经能够在多种场景中实现较高水平的识别和推理能力。然而,在更复杂的层级视觉识别任务中,现有模型仍然存在明显不足。 现实世界中的许多视觉概念天然具有层级结构,例如生物分类体系中的“界—门—纲—目—科—属—种”,以及商品分类、医学诊断等领域中的多层级标签体系。这类任务不仅要求模型识别具体类别,还需要理解不同类别之间的层级关系和语义结构。但目前多数视觉模型仍然基于扁平分类框架进行训练,在进行层级预测时容易出现分类路径不一致或层级关系冲突等问题。 与此同时,在开放世界环境中,视觉模型还需要具备识别未知类别的能力。以生物识别任务为例,现实世界中的物种数量远远超过现有数据集的覆盖范围,新的物种仍在不断被发现。 当模型面对训练数据中未出现的类别时,往往难以进行合理推断。如何利用已有知识帮助模型理解类别之间的层级结构,并在有限数据条件下推断未知类别,逐渐成为当前视觉智能研究中的重要问题。...

on 2026-04-22
川大雷印杰团队论文:用现实物理规律「重写」视频生成方式丨CVPR 2026
基于事件链与关键帧机制,提升时序与因果一致性。 作者丨郑佳美 编辑丨岑 峰 想象这样一些常见却又微妙的场景:一勺蜂蜜缓慢倒入热茶,本应拉出细长连续的丝状流动,但很多生成视频却会突然断裂甚至凭空消失;一块冰在室温下逐渐融化,真实过程应该是边缘先软化、体积变化、最终消散,而生成结果却常常直接从完整变成消失;一个玻璃球落入水中,本应经历接触水面、减速下沉、逐渐稳定的过程,但模型却可能只给出一个结果画面。 这些现象并不罕见,也正是当前视频生成技术最容易让人出戏的地方。画面看起来像,但过程不对,缺乏因果关系,也缺乏真实世界中那种连续演化的逻辑。 随着视频生成模型的发展,从 OpenAI Sora 到 Kling 等系统不断刷新视觉质量的上限,行业已经基本解决了清晰度和风格的问题,却逐渐暴露出更深层的瓶颈,即模型缺乏对物理规律的理解能力。 现有方法更多依赖数据驱动的模式匹配,本质上是在生成看起来合理的结果,而不是在模拟真实发生的过程,这也导致在流体、热变化以及多物体交互等场景中表现明显不足。 在这样的背景下,来自四川大学的雷印杰团队提出了一项新的研究工作《Chain of...

on 2026-04-22
从Manus到Claude Code:Agent正在经历一场"六阶段"范式转移 | GAIR Live 027
Agent 时代真正的变革,才刚刚开始。 作者丨岑峰 过去一年,日新月异的Agent 赛道完成了一轮螺旋式上升的范式循环: 2025 年 3 月,Manus 以三级结构落地,首次将 “数字化员工” 产品化,完成了全行业的用户启蒙; 随后 OpenClaw 凭借本地化部署、数据主权与轻量化体验迅速爆火,验证了市场对 AI 操控电脑(Computer Use)的真实付费意愿; 近期,Anthropic 携原生系统级能力的 Claude Code 强势入场,以底层架构优势冲击工业级市场。 三款现象级产品接连引爆,标志着 Computer Use 已成为大厂与创业者的核心战场,Agent 发展正式从 “单体能力比拼” 进入 “系统工程与生态卡位” 的深水区。 "这说明了Agent的演进不是线性的,而是螺旋式上升的。"在GAIR Live第27期的圆桌讨论中,OpenManus核心贡献者张佳钇这样评价。就在Claude Code发布的同一时期,Manus、OpenClaw、Codex等Agent产品密集涌现,整个行业仿佛在一夜之间进入了"深水区"。 这场由OpenManus...

on 2026-04-22
计算所 x 上交大论文:只用双人数据,也能生成多人动画丨CVPR 2026
MultiAnimate:利用身份编码与空间关系建模提升互动生成稳定性。 作者丨郑佳美 编辑丨岑 峰 在视觉生成领域,从图像生成到视频生成,研究的核心问题正逐渐从“能否生成内容”转向“能否生成可控且结构正确的内容”。 尤其是在人物动画生成任务中,研究人员不仅希望模型能够生成具有真实感的画面,还希望生成过程能够受到精确控制,例如通过输入人物图像与动作姿态序列,使模型自动生成连续的人物动画。在这一方向上,姿态驱动的人物图像动画已经取得了显著进展。然而,这些方法大多集中于单人物场景,当生成对象扩展到多人物时,问题的复杂度会显著增加。 而在在多人物动画生成过程中,模型不仅需要保持每个人物外观的稳定性,还必须在动态过程中正确建立人物与动作之间的对应关系,并处理人物之间的空间交互。如果模型无法持续区分不同人物,生成结果就容易出现身份混淆、动作错位或空间关系不合理等问题。因此,如何在复杂互动过程中保持人物身份一致,并同时建模多人物之间的空间关系,已经成为多人物视频生成研究中的关键挑战。...

on 2026-04-22
西湖大学王东林团队论文:机器人需要“通古今,知未来”丨CVPR 2026
HiF-VLA:一种利用运动信息建模时间,让机器人实现连续决策的视觉-语言-动作模型。 作者丨郑佳美 编辑丨岑 峰 试想一下,当机器人伸手去拿桌上的杯子,刚把杯子抬起来,又停住了,随后把它放回原位,然后再次伸手去拿。同一个动作,它重复了一遍,像是忘记了自己刚刚已经做过什么。类似的情况在真实环境中并不少见:按钮明明已经按下,却还在反复按,明明抽屉已经关好,却还在继续推。 这些失败并不是因为它“看不清”,而是因为它缺乏一套能够模拟时空演化的“世界模型”。当前的视觉语言行动模型虽然能够理解图像与指令,但在连续任务中仍然只能依赖当前观测做决策,一旦任务变成长步骤流程,例如拿起物体、移动、放置再到关闭装置,就容易出现动作重复和决策中断的问题,其根本原因在于缺乏对时间的理解能力。 这一问题正在成为具身智能发展的关键瓶颈。现有方法大多基于“看到什么就做什么”的即时反应机制,在短任务中表现良好,但在长序列任务中容易出现动作不连贯和决策漂移。如何让模型不仅能感知当前状态,还能记住过去并预判未来,成为新的核心挑战。...

on 2026-04-22
智源清华带来PAM,手物交互数据生成新SOTA | CVPR 2026
PAM仅需初始/目标手部姿态与物体几何信息,即可生成高保真交互视频。 Project Page:https://link.zhihu.com/?target=https%3A//gasaiyu.github.io/PAM.github.io/ 01 TL;DR ▪ 在只给定初始姿态、目标姿态和不含外观的物体几何信息的输入下,如何直接生成逼真的手物交互(HOI)视频? ▪ 现有方法存在一系列问题:姿态合成方法只能预测 MANO 轨迹,而不能生成像素细节;文生图方法能生成能产生外观,但缺乏动态信息;而视频生成方法目前大多依赖完整的姿态序列和首帧作为输入,导致其无法真正应用于 Sim-to-Real数据生成管线。 ▪ 我们提出PAM (Pose-Appearance-Motion),一个统一的数据生成引擎,利用姿态、外观和运动的解耦生成过程,完美解决上述痛点。 ▪ 这是第一个仅需条件初始姿态、目标姿态和物体的几何信息作为输入,即可实现高质量 Sim-to-Real 手物交互视频生成的框架,且利用这个管线合成的数据能显著提升下游任务(例如手部姿态估计)的性能。 02 简介...

on 2026-04-22
相关文章