0 个结果

暂无内容
3 个结果
当AI遇上心理学:如何让AI的眼神更像人?|AAAI 2025
你有没有想过,当我们看到一幅图画并听到相关的描述时,我们的眼睛是如何“自动”跟随声音去寻找画面中的对应物?这看似自然的动作,其背后却隐藏着一套极其复杂的生理与心理机制。而今天,人工智能已经能够在一定程度...

on 2025-05-23
上科大何旭明团队新作:克服简单样本偏置,让多模态模型学会「难题优先」
多模态模型在感知、理解与生成等方面的能力持续提升,但其输出中仍普遍存在与客观事实不一致的内容,即多模态幻觉现象。当模型面对信息缺失、语义含混或视觉细节复杂的场景时,往往会通过臆测进行补全,从而捏造并不存在的病灶、物体或情节。这类问题并非偶发失误,而是偏好优化训练过程中逐渐积累的结构性偏差所致:模型更容易从数量庞大、差异明显的简单样本中获得学习收益,却对真正困难、歧义性强的样本关注不足,结果是在复杂真实场景中的可靠性受到限制。围绕这一问题,上海科技大学信息科学与技术学院何旭明教授带领团队在论文《DA-DPO: Cost-efficient Difficulty-aware Preference Optimization for Reducing MLLM Hallucinations》中开展了系统研究。这项工作指出,现有偏好优化方法的核心症结不在于数据规模的不足,而在于样本难度分布失衡。为此,团队提出了 DA-DPO...

on 2026-01-28
智源多模态大模型登Nature,生成式人工智能路线统一到自回归
2026年1月28日,智源多模态大模型成果”Multimodal learning with next-token prediction for large multimodal models(通过预测下一个词元进行多模态学习的多模态大模型)”上线国际顶级学术期刊Nature,预计2月12日纸质版正式刊发,这是我国科研机构主导的大模型成果首次在Nature正刊发表。 2018年以来,GPT采用 “预测下一个词元(Next-token prediction,NTP)”的自回归路线,实现了语言大模型重大突破,开启了生成式人工智能浪潮。 而多模态模型主要依赖对比学习、扩散模型等专门路线,自回归路线是否可以作为通用路线统一多模态?一直是未解之谜。智源这项成果表明,只采用自回归路线,就可以统一多模态学习,训练出优秀的原生多模态大模型,对于确立自回归成为生成式人工智能统一路线具有重大意义。 https://www.nature.com/articles/s41586-025-10041-x Nature编辑点评这项研究:Emu3 仅基于预测下一个词元(Next-token...

on 2026-01-29
0 个结果

暂无内容
相关用户