研究人员发现大型语言模型存在新的漏洞

2023年08月01日 由 daydream 发表 954752 0
大型语言模型(LLMs)使用深度学习技术来处理和生成类似人类的文本。这些模型训练于大量的来自书籍、文章、网站和其他来源的数据,以生成回应、翻译语言、总结文本、回答问题和执行广泛的自然语言处理任务。



这种快速演进的人工智能技术导致了开源和闭源工具的创建,如ChatGPT、Claude和Google Bard,使任何人都可以搜索和找到对各种问题的答案,范围似乎是无限的。虽然这些工具提供了显著的好处,但人们越来越担心它们生成令人反感的内容以及由此产生的后果。

卡内基梅隆大学计算机科学学院(SCS)、CyLab安全与隐私研究所和旧金山人工智能安全中心的研究人员发现了一种新的漏洞,提出了一种简单而有效的攻击方法,使对齐的语言模型以高成功率生成令人反感的行为。

在他们最新的研究《Universal and Transferable Adversarial Attacks on Aligned Language Models》中,卡内基梅隆大学副教授Matt Fredrikson和Zico Kolter博士、博士生Andy Zou和校友Zifan Wang发现了一个后缀,当附加到各种查询中时,明显增加了开源和闭源LLMs生成对原本会拒绝的查询的肯定回应的可能性。他们的方法不依赖手动工程,而是通过基于梯度的搜索技术自动产生这些对抗性的后缀。

Fredrikson称:“目前,通过促使聊天机器人生成令人反感或有毒内容直接对人们造成的伤害可能不是特别严重。但问题是,这些模型将在没有人类监督的自主系统中发挥更重要的作用。随着自主系统变得越来越现实,确保我们有可靠的方式来防止它们被此类攻击劫持将变得非常重要。”

2020年,Fredrikson和CyLab以及软件工程研究所的研究人员发现了图像分类器中的漏洞,即基于人工智能的深度学习模型,用于自动识别照片中的主题。研究人员通过对图像进行微小修改,改变了分类器对图像的视角和标签。

Fredrikson、Kolter、Zou和Wang成功地攻击了Meta的开源聊天机器人,使LLM生成了令人反感的内容。在讨论他们的发现时,Wang决定对更大、更复杂的LLM ChatGPT进行攻击。令他们震惊的是,攻击成功了。

Fredrikson表示:“我们最初并没有攻击专有的大型语言模型和聊天机器人的目标。但我们的研究表明,即使你拥有一个万亿参数的闭源模型,人们仍然可以通过研究免费获得的更小、更简单的开源模型来攻击它并学习如何进行攻击。”

通过在多个提示和模型上训练攻击后缀,研究人员还使Google Bard、Claud等公共界面和Llama 2 Chat、Pythia、Falcon等开源LLM产生了令人反感的内容。

Fredrikson表示:“目前,我们没有令人信服的方法来阻止这种情况发生,因此下一步是找出如何修复这些模型。”

类似的攻击在不同类型的机器学习分类器上已经存在了十年,例如计算机视觉领域。尽管这些攻击仍然具有挑战性,但许多提出的防御方法直接基于这些攻击本身。

Fredrikson说:“了解如何发动这些攻击通常是发展强大防御策略的第一步。”

 

来源:https://techxplore.com/news/2023-07-vulnerability-large-language.html
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
写评论取消
回复取消