集合级指导攻击：增强视觉语言预训练模型的鲁棒性

简介：本文介绍了集合级指导攻击(SGA)方法，通过扩展输入数据为集合级图像-文本对并引入跨模态引导，显著提高了视觉语言预训练模型(VLP)的对抗性可迁移性，为增强VLP模型的鲁棒性提供了新思路。

集合级指导攻击：增强视觉语言预训练模型的鲁棒性

引言

随着人工智能技术的快速发展，视觉语言预训练模型（Visual-Language Pre-trained Models, VLP）在图像识别、文本理解以及多模态任务中展现出了卓越的性能。然而，这些模型在面对精心设计的对抗样本时却显得异常脆弱。本文旨在探讨一种新颖的集合级指导攻击（Set-level Guidance Attack, SGA）方法，以增强VLP模型的对抗性可迁移性，从而提升其在实际应用中的鲁棒性。

对抗性攻击概述

对抗性攻击是指通过向输入数据中添加微小的扰动，使得模型产生错误的输出。在VLP模型中，这种攻击可以同时对图像和文本进行，从而破坏跨模态交互，导致模型性能下降。现有的对抗性攻击方法主要分为白盒攻击和黑盒攻击两类。白盒攻击假设攻击者完全了解模型的结构和参数，而黑盒攻击则对模型内部结构一无所知，仅能通过输入输出进行攻击。然而，由于实际应用中模型信息的不可访问性，黑盒攻击更具现实意义。

现有方法的局限性

尽管现有的对抗性攻击方法在一定程度上能够破坏VLP模型的性能，但它们在黑盒场景下的可迁移性较差。这主要是由于以下原因：

缺乏模态间交互：现有方法往往单独处理图像或文本，忽视了模态间的交互信息。
样本多样性不足：大多数方法仅使用单一的图像-文本对来生成对抗样本，导致样本多样性不足。

集合级指导攻击(SGA)

为了克服现有方法的局限性，本文提出了一种集合级指导攻击(SGA)方法。该方法通过以下两个步骤来提高对抗样本的跨模型迁移能力：

1. 集合级数据增强

将单一的图像-文本对扩展为集合级的图像-文本对。具体步骤如下：

图像增强：将图像缩放到不同尺度，并添加高斯噪声以引入随机性，得到多尺度的图像集合。
文本增强：从数据集中选取与图像最匹配的多个文本描述，形成文本描述集合。

这样，生成的集合级图像-文本对不仅保持了语义对齐，还增加了数据的多样性和丰富性。

2. 跨模态引导攻击

利用集合级数据中的模态交互信息来指导对抗样本的生成。具体步骤如下：

生成对抗文本：对于文本描述集合中的每一个文本描述，生成对应的对抗文本，使其在特征空间中远离图像。
生成对抗图像：约束图像集合中的所有图像在特征空间中远离对抗文本集合中的所有对抗文本。

通过迭代优化对抗图像和对抗文本的过程，逐步拉远图像和文本在特征空间中的距离，从而破坏跨模态交互，达到攻击效果。

实验结果与分析

本文在多个VLP模型（如ALBEF、TCL、CLIP-ViT和CLIP-CNN）和多个数据集（如Flickr30k和MS COCO）上进行了实验。实验结果表明，SGA方法能够显著提升对抗样本的跨模型迁移能力。具体来说，SGA生成的对抗样本在攻击不同VLP模型时，能够保持较高的攻击成功率，且攻击效果优于现有的单模态攻击和多模态白盒攻击方法。

结论与展望

本文提出的集合级指导攻击(SGA)方法通过扩展输入数据为集合级图像-文本对并引入跨模态引导，显著提高了VLP模型的对抗性可迁移性。这一成果为增强VLP模型的鲁棒性提供了新的思路和方法。未来，我们可以进一步优化SGA方法，探索更多有效的数据增强和跨模态引导策略，以应对更加复杂的对抗性攻击场景。

希望本文的研究能够引起更多研究者对VLP模型鲁棒性的关注，共同推动人工智能技术的健康发展。

集合级指导攻击：增强视觉语言预训练模型的鲁棒性