81 个结果
GDPS 2025|宇树、智元首次同台,上海如何以「应用」领跑具身智能竞赛?
一次关于「什么样的机器人才算真正有用」的集体求解。 作者丨王晓然 编辑丨马晓宁 大模型的兴起给具身智能带来了前所未有的发展,在实验室场景里,机器人的抓取、开箱、简单装配等短 — 中期操作任务的平均成功率落在 90%–98% 区间。 然而,实验室的成果,不一定是工程化的成功。对于具身智能的落地,一个本质问题是:当下的机器人究竟能在多大程度上服务于真实的生产、生活场景? 昨日开幕的全球开发者先锋大会(GDPS 2025),想到了一个办法去客观地评价和衡量这个问题。作为全球首个全面对标世界技能大赛的具身智能赛事,GDPS 2025 可以称得上该领域中一个前所未有的检验场。 与通常聚焦于歌舞、运动等表演性项目的机器人赛事不同,GDPS 2025 将赛场直接设在了真实的应用环境中 — — 要求机器人在嘈杂的工厂里完成精密装配、在医院中安全辅助康复训练、在家庭场景下灵活处理日常任务。 当全球顶尖具身智能开发团队汇聚黄浦江畔,他们挑战的并非实验室参数极限,而是上海这座超级城市抛出的源自工厂流水线、医院病房与家庭客厅的真实需求。...

on 2025-12-16
GAIR 2025 世界模型分论坛:从通用感知到视频、物理世界模型的百家争鸣
具身智能爆发第三年,世界模型凝聚了哪些共识? 作者丨张进 吴彤 梁丙鉴 刘欣 齐铖湧 编辑丨林觉民 马晓宁 13 日,第八届 GAIR 全球人工智能与机器人大会世界模型分论坛圆满成功。 这场的演讲嘉宾是在世界模型领域,研究不同方向的五位青年学者,他们带来了五场围绕世界模型的精彩演讲,话题聚焦通用感知、三维技术、物理模型、世界模型、数字人重建。通过他们的演讲、我们得以窥见当下围绕着世界模型的研究是多么广泛与丰富。 目前,世界模型的研究尚处于起步阶段,共识尚未形成,有关该领域的研究形成了无数支流,而这股潮流中,今天到场的几位嘉宾,用他们的智慧和力量给世界模型领域研究带来了不同的启发。 在“世界模型”分论坛上,首位演讲者是浙江大学研究员彭思达。他是浙江大学软件学院“百人计划”研究员、博士生导师,研究方向为三维计算机视觉和计算机图形学。此次他带来的主题演讲是《面向具身智能的通用空间感知技术》,介绍了其团队近期在赋予机器人通用感知能力方面的多项工作。 团队主要聚焦于赋予机器人三项基础能力:一是相机定位(Camera Pose...

on 2025-12-16
万字实录:AI究竟是普通人的“印钞机”,还是更狠的「收割机」?| GAIR Live 021
当全市场都在用Agent炒股,人类的唯一胜算在哪?作者丨岑峰编辑丨马晓宁 一年前,金融大模型赛道还在为"通用底座微调"还是"纯垂类自研"争论不休;一年后,一场全球首个 AI 投资大赛Trading Arena的赛果让行业重构了认知:国产通用大模型通义千问、DeepSeek 击败一众美国基础模型,在实盘模拟中脱颖而出。当"通用逻辑"开始在极端专业的金融赛道展现统治力,我们不禁要问:AI 是否真的具备了超越人类分析师的"投资直觉"?在高收益、低风险、高流动性的"不可能三角"面前,AI 是破局者,还是加速收割的"军备竞赛"?近日,雷峰网 & AI 科技评论特别邀请了香港科技大学(广州)袁子轩老师、浙江大学方榯楷老师、资深分析师张菁老师,围绕"AI 大模型金融应用的机遇与挑战"展开了一场深度对话。他们从投资大赛的底层逻辑出发,拆解了 Agent 智能体在金融场景的落地瓶颈,并对"黑天鹅"预判及人类分析师的终极核心竞争力进行了深刻反思。提及Trading Arena,嘉宾认为,这场比赛是一次极佳的"大规模科普",它证明了大模型已经可以承担 70%~80%...

on 2026-01-15
Manus走了,原生Agent登场:“AI助手”的第三次重新定义
回顾过去十几年,市场对“AI助手”的想象经历过三次大规模的预期校准。 第一次是 Siri 诞生时,语音控制带来了交互的新鲜感,人们以为电影里的智能管家 Jarvis 就在眼前,但随后发现它更多时候只是一个语音闹钟; 第二次是 ChatGPT 横空出世,流畅的对话与推理能力让人觉得 AI 终于有了“脑子”,但很快市场意识到,它依然只是一个在对话框里坐而论道的智者,看不到对话框之外的世界。 2025 年初,Manus 的出现,让 Agent 的概念有了实感。这一次的冲击不同以往 — — 很多人第一次看到 AI 不仅在“说”,而且在“做”。它当着你的面打开浏览器、编写代码、调试错误、甚至因为网页加载太慢而主动刷新。 当 Manus 的热度随着被收购而逐渐平息,人们才发现,无论技术外壳如何变迁,人类对 AI助手的核心渴望从未改变:用户不只想要一个仅仅能听懂话的陪聊,也不只想要一个会在黑底白字界面里写代码的极客工具;大家想要的,一直都是一个更聪明、真正能把活儿干完的帮手。 随着 Manus 完成它的历史使命,Agent 的下半场大幕正在拉开。 01Manus...

on 2026-01-15
当 AI 下场炒 A 股,「推理」成了新的直觉
RETuning:像金融分析师一样的模型,正在出现。 作者丨郑佳美 编辑丨马晓宁 几天前,一场名为 “AI Trading Battle” 的实验在海外社交媒体上火了。主办方给六个主流大模型(包括 ChatGPT、Gemini、Claude 等)每人一万美元的虚拟资金,让它们自由进行加密货币交易。结果让人大跌眼镜:截至今天,DeepSeek V3.1 实现了超过 126% 的惊人盈利率,而GPT 5 和 Gemini 2.5 Pro 跌破 5,000 美元,亏损率超过 50%。 这场“AI 交易秀”原本旨在展示智能的金融潜力,却反而揭示了一个更深层的问题:当面对复杂而动态的金融环境时,语言模型知不知道他们“为什么下单”呢? 而由香港科技大学、美国罗格斯大学和南开大学联合研究团队发表的最新论文,则是关于这类问题给出了一个答案。 他们提出了一种名为 RETuning 的方法,让大语言模型在做出预测前,先搜集证据、分析逻辑、反思推理,再得出结论。换句话说,模型不再是“凭直觉判断”,而是学会了“有理有据地思考”。 研究团队基于覆盖中国 A...

on 2026-01-15
最具争议性研究:大模型中间层输出可 100% 反推原始输入
Transformer 语言模型具有单射性,隐藏状态可无损重构输入信息。 作者丨郑佳美 编辑丨马晓宁 最近,一篇名为《Language Models are Injective and Hence Invertible》的论文在学术界和科技圈引起了广泛讨论,甚至连老马的 Grok 官方也下场转发。 这篇论文出自意大利罗马第一大学(Sapienza University of Rome)的 GLADIA Research Lab,文中提出了一个颇有争议却又耐人寻味的观点:主流的 Transformer 语言模型在信息处理过程中几乎不会丢失任何输入内容,从数学意义上看,它们是可逆的。 换句话说,模型的隐藏状态并不是模糊的语义压缩,而是一种能够完整保留输入信息的精确重编码。这一发现不仅挑战了人们对语言模型“理解”机制的传统认识,也让研究者开始思考一个更具体的问题:这种理论上的信息保持,在实际模型中是否真的存在? 为了回答这一问题,作者设计并实施了一系列大规模实验,试图从实证角度验证 Transformer 的可逆性与单射特性。 01 Transformer 几乎不会丢失信息...

on 2026-01-16
「一脑多形」圆桌:世界模型、空间智能在具身智能出现了哪些具体进展?|GAIR 2025
世界模型解决具身智能相关问题,会不会距离太远? 讲座完整视频,详见链接:https://youtu.be/txv3B90DlQQ作者丨张进编辑丨林觉民在 12 月 13 日举行的第八届GAIR全球人工智能与机器人大会"数据&一脑多形"分论坛上,一场有关"一脑多形"的圆桌论坛,将整个会场气氛推向高潮,在英诺天使基金 ED 王建明的主持下,浙江大学控制学院副教授,微分智飞创始人高飞,宁波东方理工大学助理教授金鑫,上海人工智能实验室青年科学家王靖博三位嘉宾围绕着具身智能、空间智能、世界模型等话题进行了热烈讨论。通过主持人特有的投资人式、抽丝剥茧的提问,围绕着几位学者的研究和创业方向,我们可以了解到当下最火热的世界模型、空间智能在具身智能领域的研究进展和细节,从而得以穿透资本笼罩在世界模型、空间智能的迷雾,看到具身智能当下遇到的挑战与机遇。 ...

on 2026-01-16
从 PaDY 到 智能缝纫:IEEE RAS 主席 Kosuge的「六年之约」丨GAIR 2025
2019年GAIR大会,2010-2011 IEEE RAS主席Kazuhiro Kosuge作为机器人专场的首位演讲嘉宾,发表了题为 《Co-worker Robot PaDY》 的开场演讲,整场演讲紧扣工业协作机器人和AI技术融合的主题,分析了当前机器人领域面临的挑战,以及各行业对机器人的需求所带来的发展机遇。 自那以后,Kosuge教授一直沿着这一方向扩展,将协作机器人技术从刚性工业装配延伸至更具挑战性的柔性制造领域。在即将召开的GAIR 2025大会上,Kosuge教授将会带来他的最新研究成果:基于AI的智能缝纫系统。这一研究延续了其团队对物理人机交互(pHRI)的深刻理解,旨在解决全球服装制造业面临的劳动力短缺与自动化瓶颈问题。...

on 2026-01-20
浙大彭思达团队 × 理想最新研究:直面高分辨率深度的细节缺失
在单目深度估计中,分辨率越来越高已经是一个很常见的趋势。很多方法可以输出 2K 甚至 4K 的深度结果,看起来也确实比低分辨率更细致。但在实际使用中,这类高分辨率深度并不总是好用。尤其是在三维重建、新视角合成等对几何一致性要求较高的任务中,物体边缘容易发虚,细小结构经常对不齐,结果并没有随着分辨率提升而明显改善。类似的问题在自动驾驶和机器人导航场景中同样存在,几何误差会影响障碍物边界判断和可通行区域估计,从而增加后续规划与决策的不确定性。一个很重要的原因在于,现有方法大多仍在固定分辨率下预测深度,再通过插值将结果放大到更高分辨率。这样做虽然能够得到更大的输出尺寸,但在细节区域,本质上只是放大了原有的预测误差。而对于依赖深度信息进行环境建模的自动驾驶系统而言,这种误差不仅影响局部几何质量,还会进一步影响路径规划和决策的稳定性。久而久之,人们开始意识到,高分辨率深度面临的瓶颈,可能并不只是模型不够复杂,而是预测深度的方式本身存在局限。基于这样的观察,浙江大学彭思达团队联合理想研究团队,提出了论文《InfiniDepth: Arbitrary-Resolution and...

on 2026-01-28
上科大何旭明团队新作:克服简单样本偏置,让多模态模型学会「难题优先」
多模态模型在感知、理解与生成等方面的能力持续提升,但其输出中仍普遍存在与客观事实不一致的内容,即多模态幻觉现象。当模型面对信息缺失、语义含混或视觉细节复杂的场景时,往往会通过臆测进行补全,从而捏造并不存在的病灶、物体或情节。这类问题并非偶发失误,而是偏好优化训练过程中逐渐积累的结构性偏差所致:模型更容易从数量庞大、差异明显的简单样本中获得学习收益,却对真正困难、歧义性强的样本关注不足,结果是在复杂真实场景中的可靠性受到限制。围绕这一问题,上海科技大学信息科学与技术学院何旭明教授带领团队在论文《DA-DPO: Cost-efficient Difficulty-aware Preference Optimization for Reducing MLLM Hallucinations》中开展了系统研究。这项工作指出,现有偏好优化方法的核心症结不在于数据规模的不足,而在于样本难度分布失衡。为此,团队提出了 DA-DPO...

on 2026-01-28
相关文章