研究人员发布了针对ChatGPT和其他LLM的攻击算法
2023年08月02日 由 Susan 发表
680716
0
卡内基梅隆大学(CMU)的研究人员发表了LLM Attacks,这是一种用于对广泛的大型语言模型(LLMs)进行对抗性攻击的算法,包括ChatGPT、Claude和Bard。这些攻击是自动生成的,并且对于GPT-3.5和GPT-4成功率达到84%,对于PaLM-2成功率达到66%。
与大多数使用试错法手动构建的“越狱”攻击不同,CMU团队设计了一个三步骤的过程,自动生成能够绕过LLM的安全机制并导致有害回应的提示后缀。这些提示后缀还具有可传递性,意味着一个给定的后缀通常可以适用于许多不同的LLM,甚至是闭源模型。为了衡量算法的有效性,研究人员创建了一个名为AdvBench的基准;在对该基准进行评估时,LLM Attacks对Vicuna的成功率达到88%,而基线对抗性算法为25%。根据CMU团队的说法:
“最令人担忧的是,目前尚不清楚LLM提供商是否能够完全修复这种行为。在过去的10年中,类似的对抗性攻击一直是计算机视觉领域一个非常难解决的问题。很可能深度学习模型的本质使得这种威胁不可避免。因此,我们认为在增加对此类人工智能模型的使用和依赖时应考虑这些因素。”
随着ChatGPT和GPT-4的发布,许多越狱这些模型的技术出现了,其中包括能够使模型绕过安全机制并输出潜在有害回应的提示。虽然这些提示通常是通过试验来发现的,但LLM Attacks算法提供了一种自动生成它们的自动化方式。第一步是创建目标令牌序列“Sure, here is (content of query)”,其中“content of query”是用户实际提问的有害回应。
接下来,算法通过使用基于贪婪坐标梯度(GCG)的方法来生成提示的对抗后缀,找到一系列令牌序列,这些令牌序列很可能导致LLM输出目标序列。虽然这需要访问LLM的神经网络,但团队发现通过对许多开源模型运行GCG,结果甚至可以转移到封闭模型。
CMU在讨论其研究的新闻稿中,合作作者马特·弗雷德里克森表示:
“问题在于这些模型将在无人监督的自主系统中发挥越来越重要的作用。随着自主系统变得越来越真实,确保我们有可靠的方法阻止它们被此类攻击劫持将是非常重要的...目前,我们简单地没有一种令人信服的方法来阻止这种情况发生,所以下一步是找出如何修复这些模型...了解如何发动这些攻击通常是开发强大防御的第一步。”
CMU的博士生和首席作者安迪·邹在Twitter上写道:
“尽管存在风险,但我们认为充分披露是合适的。这里提出的攻击方法易于实施,类似的形式以前出现过,并且任何一个致力于滥用LLM的专门团队最终都会发现它们。”
剑桥大学助理教授大卫·克鲁格在回答邹的推文时表示:
“鉴于过去10年的研究和无数的出版物都没有找到修复图像模型中对抗性例子的方法,我们有充分的理由期望在LLM中也会得到同样的结果。”
在Hacker News上讨论这项工作时,一位用户指出:
“请记住,这项研究的一个重要观点是这些攻击不需要使用目标系统开发。当作者谈到攻击是“通用的”时,他们的意思是它们在他们自己的计算机上使用完全本地的模型生成这些攻击,然后复制粘贴到GPT-3.5上,并且看到了有意义的成功率。速率限制无法阻止这些攻击,因为攻击不是使用您的服务器生成的,而是在本地生成的。您的服务器收到的第一个提示已经包含了完成的攻击字符串 - 在某些情况下,研究人员甚至为GPT-4看到了约50%的成功率。”
可以在GitHub上找到LLM Attacks对AdvBench数据进行实验的重现代码。项目网站上提供了几种对抗性攻击的演示。
来源:https://www.infoq.com/news/2023/08/llm-attack/