
CLIP后门样本检测领域取得重要突破——5分钟内清洗百万数据,发现自然后门样本并揭示OpenCLIP预训练模型中的后门风险。
随着多模态模型
论文地址:https://arxiv.org/pdf/2502.01385
GitHub链接:https://github.com/HanxunH/Detect-CLIP-Backdoor-Samples
项目网站:https://hanxunh.github.io/Detec
1、研究背景
对比语言-图像预训练(Contrastive Language-Image Pretraining, CLIP)作为多模态大模型视觉模块的主流预训练范式,在视觉-语言对齐任务中展现了卓越的性能,但其潜在的后门风险不容忽视。研究表明,攻击者仅需对0.01%的训练数据进行投毒,即可在CLIP模型中成功植入后门,从而通过特定触发器操控模型输出,例如强制指定目标分类标签。这种攻击不仅成本低,而且隐蔽性极高,使得CLIP模型在实际应用中面临严峻的安全挑战,亟需有效的防御机制来保障其可靠性。
2、检测方法
作者首先对遭受后门攻击的CLIP模型进行了深入分析,提取了干净样本和后门样本的嵌入特征,随后利用t-SNE算法
这一现象的根本原因在于,后门攻击通过特定触发器操纵模型输出,导致后门样本在嵌入空间中集中于特定区域,并与其他正常样本显著分离。相比之下,干净样本由于蕴含丰富的语义信息,在嵌入空间中的分布呈现出密集且连续的特性。基于这一观察,并结合实际场景中低投毒率的特点,作者提出了一种基于局部邻域异常检测
局部邻域异常检测的核心思想是通过比较每个数据点与其邻近样本的分布特性,识别统计意义上显著的“离群点”。具体而言,可以采用基于距离(如k近邻距离)或密度(如局部离群因子,LOF)的指标来量化每个样本的异常程度,从而实现对后门样本的精准定位。
- k-dist:即数据点 q 与其第 k 个最近邻之间的距离。
- SLOF(简单局部离群因子):在 k-dist 基础上做进一步衡量。对于某个数据点 q,SLOF 定义如下:
其中, NN_k(q) 表示点 q 的 k 个最近邻。若 SLOF 显著大于 1,则意味着 q 的邻居分布与其他点存在较大差异,可能属于异常样本。
在复杂分布环境下,仅依赖邻域间的距离可能不足以刻画离群点的真实分布差异。为此,作者使用局部本质内在维度(Local Intrinsic Dimensionality,LID) 来度量数据点向周围扩散时遇到样本增长的速率。LID 通常需要借助最大似然估计(MLE)等方法进行估计,记为。基于此,可定义局部内在维度离群因子(DAO)。它在 SLOF的基础上,进一步考虑了每个邻居的局部内在维度估计值:
与 SLOF 相似,若 DAO 显著大于 1,说明数据点 q 很可能是异常点。DAO 引入的局部内在维度,使得对于高维或分布复杂的数据场景,也能更准确地识别潜在的异常样本。
图 2 描述了将局部邻域异常检测应用于 CLIP 后门样本检测的流程。首先,利用在不可信数据集上预训练好的 CLIP 模型作为特征提取器,对一批待检测样本进行特征抽取。接着,随机选取一部分数据样本作为候选邻居集,用于后续计算 k-dist、SLOF、LID 或 DAO 等指标。随后,遍历每个样本并计算其异常值。最后,对所有样本的异常值进行排序,并根据需要移除出异常值显著偏高的样本,从而获得一个更加可信、干净的数据集。
3、实验分析
图3展示了本文提出的方法与现有方法在后门样本检测任务上的性能对比,评价指标采用ROC曲线下面积(AUROC)。实验结果表明,k-dist、SLOF和DAO方法在后门样本检测中均表现出色,其性能在不同模型架构、投毒攻击方式及触发器类型下均保持稳定,展现了较强的通用性和适应性。此外,作者还针对不同投毒率、多样化数据集以及自适应攻击场景进行了广泛实验验证。结果表明,基于局部邻域异常检测的方法在不同实验设置下均表现出优异的鲁棒性,进一步证实了其在复杂实际场景中的可靠性。
4、在真实数据集CC3M和OpenCLIP预训练的模型中发现后门
在谷歌发布的CC3M数据集中,作者使用提出的检测方法发现了无意中(自然)安插的后门投毒样本。这些样本表现出很高的嵌入异常值,高度吻合后门特点:
- 此次发现的投毒图像有798张,约占下载数据的0.03%(如图4);
- 这些图像具有高度相似的语义,对应的文字描述为“the birthday cake with candles in the form of a number icon”。
此外,作者在OpenCLIP发布的预训练模型中成功提取到了后门触发器(见图5),并验证了该触发器的攻击成功率高达98.8%(ImageNet数据集上的Zero-shot分类任务)。这说明这些投毒样本已经被训练进了很多开源模型中。
此外,研究还揭示了一个重要现象:异常值最高的样本中,相当一部分是无意义的“占位”图片(如图6中的空白图片)。这是由于数据集发布后缺乏定期维护,部分原始图片链接已失效或内容被删除,导致这些位置被与训练任务无关的无效图像所替代。这也从侧面验证了,论文中提出的检测方法不仅能够有效识别后门样本,还可以精准定位无效或噪声样本,从而进一步提升数据集的整体质量与可靠性。
5、总结
- 论文提出了一种适用于工业场景的大规模数据集轻量化后门检测方法。
- 针对CLIP后门样本检测,论文提出了一种基于局部邻域异常检测的高效检测方法,通过分析样本在嵌入空间中的局部邻域密度来检测后门投毒样本。
- 论文揭示了真实数据集CC3M中所存在的后门投毒样本,并通过逆向实验证明这些后门已经被植入OpenCLIP发布的预训练模型中。
- 论文所提出的方法还可以用于检测数据集中存在的不“占位”或者噪声图像。