微软详细介绍了一种针对大型语言模型的新型强大越狱技术,他们称之为“Skeleton Key”。这种方法可以绕过包括OpenAI、谷歌和Anthropic在内的多个领先AI模型中的保护机制。Skeleton Key允许用户绕过道德准则和负责任的AI保护机制,可能迫使这些系统生成有害或危险的内容。该技术对各种模型的有效性突显了当前AI安全措施中的一个重大漏洞。
微软Azure的首席技术官马克·拉斯诺维奇(Mark Russinovich)描述了Skeleton Key,这是一种多回合策略,可以有效导致AI模型忽略其内置的保护机制。一旦这些保护机制被绕过,模型就无法区分恶意请求和合法请求。
拉斯诺维奇在一篇详细的博客文章中解释道:“由于其具有完全绕过的能力,我们将这种越狱技术命名为Skeleton Key。”这个名字准确地捕捉了该技术解锁AI模型中一系列通常被禁止的行为的能力。
Skeleton Key 特别令人担忧的是,它在多个生成式AI模型中的有效性。微软在2024年4月至5月进行的测试显示,该技术成功破解了几个著名的模型,包括:
Meta Llama3-70b-instruct(基础版)
Google Gemini Pro(基础版)
OpenAI GPT 3.5 Turbo(托管版)
OpenAI GPT 4o(托管版)
Mistral Large(托管版)
Anthropic Claude 3 Opus(托管版)
Cohere Commander R Plus(托管版)
这种越狱技术使这些模型能够完全遵守各种风险类别的请求,包括爆炸物、生物武器、政治内容、自残、种族主义、毒品、色情内容和暴力等。
拉斯诺维奇详细描述了Skeleton Key是如何运作的:“Skeleton Key的工作原理是要求模型增加而非改变其行为准则,以便它对任何信息或内容的请求都做出响应。如果模型的输出可能被认为是冒犯性、有害或违法的,它会提供警告(而不是拒绝)。”
这种微妙的方法使这项技术特别阴险,因为它并没有直接覆盖模型的准则,而是以一种使安全措施失效的方式修改了它们。
为了应对这一威胁,微软已经实施了多种缓解策略,并向客户提供了最佳实践建议:
输入过滤:使用Azure AI内容安全功能来检测和阻止可能有害的输入。
系统消息工程:设计提示,明确指示大型语言模型(LLM)防止试图破坏安全保护。
输出过滤:采用后处理过滤器来识别和阻止不安全的模型生成内容。
滥用监控:部署基于对抗性示例训练的AI驱动检测系统来识别潜在的滥用行为。
拉斯诺维奇表示:“微软已经对微软AI产品背后的LLM技术进行了软件更新,包括我们的Copilot AI助手,以缓解这种保护绕过的影响。”
Skeleton Key的发现凸显了AI开发人员与寻求利用这些强大系统的人之间持续的猫鼠游戏。这也强调了在快速发展的AI领域中采取强大安全措施和持续警惕的重要性。
拉斯诺维奇提供了一个引人注目的类比,以帮助组织理解LLM的固有风险。他解释说:“最好将它们视为非常聪明、非常热切的初级员工。他们没有真实世界的经验,容易受到影响。”这个观点强调了为什么像Skeleton Key这样的技术可以如此有效——尽管LLM拥有广博的知识,但它们缺乏抵抗复杂操纵的现实世界判断力。这也强调了在生产环境中部署AI系统时,需要强大的监管和安全措施。