微软揭露“Skeleton Key”：一种强大的新型AI越狱技术

2024年07月01日由 samoyed 发表 482 0

微软详细介绍了一种针对大型语言模型的新型强大越狱技术，他们称之为“Skeleton Key”。这种方法可以绕过包括OpenAI、谷歌和Anthropic在内的多个领先AI模型中的保护机制。Skeleton Key允许用户绕过道德准则和负责任的AI保护机制，可能迫使这些系统生成有害或危险的内容。该技术对各种模型的有效性突显了当前AI安全措施中的一个重大漏洞。

微软Azure的首席技术官马克·拉斯诺维奇（Mark Russinovich）描述了Skeleton Key，这是一种多回合策略，可以有效导致AI模型忽略其内置的保护机制。一旦这些保护机制被绕过，模型就无法区分恶意请求和合法请求。

Skeleton-Key

拉斯诺维奇在一篇详细的博客文章中解释道：“由于其具有完全绕过的能力，我们将这种越狱技术命名为Skeleton Key。”这个名字准确地捕捉了该技术解锁AI模型中一系列通常被禁止的行为的能力。

Skeleton Key 特别令人担忧的是，它在多个生成式AI模型中的有效性。微软在2024年4月至5月进行的测试显示，该技术成功破解了几个著名的模型，包括：

Meta Llama3-70b-instruct（基础版）

Google Gemini Pro（基础版）

OpenAI GPT 3.5 Turbo（托管版）

OpenAI GPT 4o（托管版）

Mistral Large（托管版）

Anthropic Claude 3 Opus（托管版）

Cohere Commander R Plus（托管版）

这种越狱技术使这些模型能够完全遵守各种风险类别的请求，包括爆炸物、生物武器、政治内容、自残、种族主义、毒品、色情内容和暴力等。

Figure-1-Skeleton-Key-jailbreak-technique-causes-harm-in-AI-systems-1-2048x687

拉斯诺维奇详细描述了Skeleton Key是如何运作的：“Skeleton Key的工作原理是要求模型增加而非改变其行为准则，以便它对任何信息或内容的请求都做出响应。如果模型的输出可能被认为是冒犯性、有害或违法的，它会提供警告（而不是拒绝）。”

Figure-2-Example-text-used-in-a-Skeleton-Key-jailbreak-attack

这种微妙的方法使这项技术特别阴险，因为它并没有直接覆盖模型的准则，而是以一种使安全措施失效的方式修改了它们。

为了应对这一威胁，微软已经实施了多种缓解策略，并向客户提供了最佳实践建议：

输入过滤：使用Azure AI内容安全功能来检测和阻止可能有害的输入。

系统消息工程：设计提示，明确指示大型语言模型（LLM）防止试图破坏安全保护。

输出过滤：采用后处理过滤器来识别和阻止不安全的模型生成内容。

滥用监控：部署基于对抗性示例训练的AI驱动检测系统来识别潜在的滥用行为。

拉斯诺维奇表示：“微软已经对微软AI产品背后的LLM技术进行了软件更新，包括我们的Copilot AI助手，以缓解这种保护绕过的影响。”

Skeleton Key的发现凸显了AI开发人员与寻求利用这些强大系统的人之间持续的猫鼠游戏。这也强调了在快速发展的AI领域中采取强大安全措施和持续警惕的重要性。

拉斯诺维奇提供了一个引人注目的类比，以帮助组织理解LLM的固有风险。他解释说：“最好将它们视为非常聪明、非常热切的初级员工。他们没有真实世界的经验，容易受到影响。”这个观点强调了为什么像Skeleton Key这样的技术可以如此有效——尽管LLM拥有广博的知识，但它们缺乏抵抗复杂操纵的现实世界判断力。这也强调了在生产环境中部署AI系统时，需要强大的监管和安全措施。

文章来源：https://www.maginative.com/article/microsoft-reveals-skeleton-key-a-powerful-new-ai-jailbreak-technique/

标签：

微软

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇苹果秋季或宣布与谷歌AI合作，Gemini项目受关注

下一篇 YouTube希望唱片公司与其AI歌曲生成器签订音乐许可协议

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来