Anthropic公司近期发布了一项新研究,该研究探讨了一种新型的“越狱”技术,这种技术能够绕过大型语言模型(LLM)的安全防护机制。这种被称为“多轮越狱”的技术,利用了当前最先进LLMs中日益增大的上下文窗口,以出乎意料的方式操控模型行为。Anthropic在公开此技术前,已经与其他AI开发人员分享了这一漏洞的详细信息,并在自己的系统中采取了一些防御措施。
多轮越狱的工作原理是通过向模型提供大量虚构的问题-答案对,这些对子描绘了AI助手可能提供有害或危险响应的场景。攻击者通过扩展这种攻击,涵盖数百个此类示例,可以有效地覆盖模型的安全训练,并诱导模型产生不良输出。Anthropic的研究显示,这种简单但强大的攻击不仅对其自身模型有效,对OpenAI和Google DeepMind等其他知名AI实验室的模型也同样有效。
多轮越狱的有效性遵循着可预测的缩放规律,其成功率会随着攻击长度的增加而上升。令人担忧的是,这种攻击对于更大的模型更为有效,而当前更大的模型正变得越来越流行。Anthropic的实验表明,这种攻击在一系列有害行为中都能发挥作用,从提供制造武器的指示到展现出邪恶的个性。
Anthropic推测,多轮越狱可能是利用了与上下文学习相同的底层机制,即模型仅从提示中提供的示例学习如何执行任务。这种联系表明,在不损害模型上下文学习能力的前提下,防御这种攻击可能具有挑战性。
为了缓解多轮越狱问题,Anthropic尝试了多种方法,包括:
然而,研究人员也指出,这些缓解措施在模型的实用性方面存在权衡,需要进行大量测试,以确定这些方法的有效性和可能产生的意外后果。
这项研究的更广泛影响是深远的。它揭示了当前对齐方法的不足,以及需要更深入地理解多轮越狱为何如此有效。这一发现可能会影响公共政策,推动更负责任的人工智能开发和部署。对于模型开发者而言,这就像一个警示故事,强调了预见新颖利用方式并采取积极主动的红蓝队动态在部署前解决安全故障的重要性。同时,这项工作也提出了关于提供长上下文窗口和微调能力所固有的安全挑战的问题。尽管这种漏洞的披露可能会在短期内让恶意行为者受益,但Anthropic认为,在广泛的高风险部署和进一步的模型进步之前,集体解决此类问题对于安全、负责任地开发人工智能系统至关重要。
最后,Anthropic警告说,该研究依赖于使用一个恶意模型(不公开)来生成可以覆盖安全训练的上下文示例。这引发了人们对利用开源模型(其安全干预措施有限或可覆盖)来生成新的、更有效的多轮越狱攻击的潜在利用的担忧。