0 个结果

暂无内容
4 个结果
CLIP 后门样本检测:揭示网络数据集中的后门风险丨ICLR 2025
CLIP后门样本检测领域取得重要突破——5分钟内清洗百万数据,发现自然后门样本并揭示OpenCLIP预训练模型中的后门风险。...

on 2025-04-18
当AI遇上心理学:如何让AI的眼神更像人?|AAAI 2025
你有没有想过,当我们看到一幅图画并听到相关的描述时,我们的眼睛是如何“自动”跟随声音去寻找画面中的对应物?这看似自然的动作,其背后却隐藏着一套极其复杂的生理与心理机制。而今天,人工智能已经能够在一定程度...

on 2025-05-23
GuardAgent:首个专门为LLM agent提供安全Guardrail 的守卫型agent
本文由 UIUC 李博教授 (Virtue AI)领导,文章一作向臻曾于李博教授课题组担任博士后研究员,现任佐治亚大学计算机系助理教授。 近年来大型语言模型(LLM)发展迅速,从纯粹的对话工具变成可以自主执行任务的“智能体”(agent)。这些LLM agent正在被部署到各类现实场景中,如医疗问诊、金融分析、网页导航、自动驾驶等。它们可以调用外部工具、读取数据库、与网页交互,实现复杂的自动化流程。 然而,随之而来的却是日益严峻的安全和隐私挑战。一个没有安全限制的医疗agent,可能在无意中泄露患者敏感信息;一个自动化网页agent,可能在儿童使用时触发不合适的购买行为。传统的针对大模型本身的安全监护(Guardrail)主要用于检测文本输出中的有害内容,在处理文字时效果不错,但面对执行现实世界操作(如查询数据库、点击网页按钮)的LLM agent时,它们显得力不从心。这类agent需要的不是“文字审查”,而是真正理解上下文、能处理结构化安全请求的机制。 为此,来自佐治亚大学,UIUC大学等院校,联合AI安全公司Virtual AI的多位学者发布了GuardAgent ——...
CZ
on 2025-07-23