微软揭露“Skeleton Key”:一种强大的新型AI越狱技术

2024年07月01日 由 samoyed 发表 269 0

微软详细介绍了一种针对大型语言模型的新型强大越狱技术,他们称之为“Skeleton Key”。这种方法可以绕过包括OpenAI、谷歌和Anthropic在内的多个领先AI模型中的保护机制。Skeleton Key允许用户绕过道德准则和负责任的AI保护机制,可能迫使这些系统生成有害或危险的内容。该技术对各种模型的有效性突显了当前AI安全措施中的一个重大漏洞。


微软Azure的首席技术官马克·拉斯诺维奇(Mark Russinovich)描述了Skeleton Key,这是一种多回合策略,可以有效导致AI模型忽略其内置的保护机制。一旦这些保护机制被绕过,模型就无法区分恶意请求和合法请求。


Skeleton-Key


拉斯诺维奇在一篇详细的博客文章中解释道:“由于其具有完全绕过的能力,我们将这种越狱技术命名为Skeleton Key。”这个名字准确地捕捉了该技术解锁AI模型中一系列通常被禁止的行为的能力。


Skeleton Key 特别令人担忧的是,它在多个生成式AI模型中的有效性。微软在2024年4月至5月进行的测试显示,该技术成功破解了几个著名的模型,包括:


Meta Llama3-70b-instruct(基础版)

Google Gemini Pro(基础版)

OpenAI GPT 3.5 Turbo(托管版)

OpenAI GPT 4o(托管版)

Mistral Large(托管版)

Anthropic Claude 3 Opus(托管版)

Cohere Commander R Plus(托管版)


这种越狱技术使这些模型能够完全遵守各种风险类别的请求,包括爆炸物、生物武器、政治内容、自残、种族主义、毒品、色情内容和暴力等。


Figure-1-Skeleton-Key-jailbreak-technique-causes-harm-in-AI-systems-1-2048x687


拉斯诺维奇详细描述了Skeleton Key是如何运作的:“Skeleton Key的工作原理是要求模型增加而非改变其行为准则,以便它对任何信息或内容的请求都做出响应。如果模型的输出可能被认为是冒犯性、有害或违法的,它会提供警告(而不是拒绝)。”


Figure-2-Example-text-used-in-a-Skeleton-Key-jailbreak-attack


这种微妙的方法使这项技术特别阴险,因为它并没有直接覆盖模型的准则,而是以一种使安全措施失效的方式修改了它们。


为了应对这一威胁,微软已经实施了多种缓解策略,并向客户提供了最佳实践建议:


输入过滤:使用Azure AI内容安全功能来检测和阻止可能有害的输入。

系统消息工程:设计提示,明确指示大型语言模型(LLM)防止试图破坏安全保护。

输出过滤:采用后处理过滤器来识别和阻止不安全的模型生成内容。

滥用监控:部署基于对抗性示例训练的AI驱动检测系统来识别潜在的滥用行为。

拉斯诺维奇表示:“微软已经对微软AI产品背后的LLM技术进行了软件更新,包括我们的Copilot AI助手,以缓解这种保护绕过的影响。”


Skeleton Key的发现凸显了AI开发人员与寻求利用这些强大系统的人之间持续的猫鼠游戏。这也强调了在快速发展的AI领域中采取强大安全措施和持续警惕的重要性。


拉斯诺维奇提供了一个引人注目的类比,以帮助组织理解LLM的固有风险。他解释说:“最好将它们视为非常聪明、非常热切的初级员工。他们没有真实世界的经验,容易受到影响。”这个观点强调了为什么像Skeleton Key这样的技术可以如此有效——尽管LLM拥有广博的知识,但它们缺乏抵抗复杂操纵的现实世界判断力。这也强调了在生产环境中部署AI系统时,需要强大的监管和安全措施。

文章来源:https://www.maginative.com/article/microsoft-reveals-skeleton-key-a-powerful-new-ai-jailbreak-technique/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消