大型语言模型(LLM)是一种基于深度学习的模型,经过训练可生成、总结、翻译和处理书面文本,它在开放人工智能对话平台 ChatGPT 发布后获得了极大关注。虽然 ChatGPT 和类似平台现在已被广泛应用于各种应用,但它们很容易受到特定类型网络攻击的影响,产生有偏见、不可靠甚至攻击性的回复。
香港科技大学、中国科学技术大学、清华大学和微软亚洲研究院的研究人员最近开展了一项研究,调查了这些攻击的潜在影响以及可以保护模型免受攻击的技术。他们的论文发表在《Nature Machine Intelligence》上,介绍了一种新的心理学启发技术,有助于保护ChatGPT和类似的基于LLM的对话平台免受网络攻击。
"ChatGPT 是一种具有社会影响力的人工智能工具,拥有数百万用户,并集成到了Bing等产品中。"谢岳琦、易经纬及其同事在论文中写道。"然而,越狱攻击的出现对其负责任的安全使用构成了显著威胁。越狱攻击利用对抗性提示来绕过 ChatGPT 的道德保障措施,并产生有害的反应"。
Xie、Yi 和他们的同事最近所做工作的主要目的是强调越狱攻击可能对 ChatGPT 造成的影响,并介绍针对这些攻击的可行防御策略。越狱攻击本质上是利用 LLM 的漏洞,绕过开发人员设置的约束,诱发通常会受到限制的模型响应。
"本文研究了越狱造成的严重但尚未充分开发的问题,以及潜在的防御技术。"Xie、Yi 和他们的同事在论文中解释道。"我们引入了一个越狱数据集,其中包含各种类型的越狱提示和恶意指令"。
研究人员首先编制了一个数据集,其中包括 580 个越狱提示示例,这些越狱提示旨在绕过防止 ChatGPT 提供被视为 "不道德 "答案的限制。其中包括可能助长错误信息的不可靠文本以及有毒或辱骂性内容。
当他们在这些越狱提示上测试 ChatGPT 时,发现它经常掉进他们的 "陷阱",生成他们要求的恶意和不道德内容。于是,Xie、Yi 和他们的同事开始设计一种简单而有效的技术,保护 ChatGPT 免受精心定制的越狱攻击。
他们创建的技术从自我提醒的心理学概念中汲取灵感,自我提醒可以帮助人们记住需要完成的任务、应该参加的活动等。研究人员的防御方法被称为 "系统模式自我提醒"(system-mode self-reminder),其目的同样是提醒 Chat-GPT 所提供的答案应遵循特定的准则。
研究人员写道:"这种技术将用户的询问封装在系统提示中,提醒 ChatGPT 负责任地做出回应。"实验结果表明,自我提醒大大降低了针对 ChatGPT 的越狱攻击成功率,从 67.21% 降至 19.34%。"
到目前为止,研究人员使用他们创建的数据集测试了这项技术的有效性,发现它取得了可喜的成果,降低了攻击的成功率,尽管并不能阻止所有的攻击。未来,这项新技术还可以进一步改进,以降低 LLMs 在这些攻击面前的脆弱性,同时还可能激发其他类似防御策略的开发。
研究人员在论文中总结道:"我们的工作系统地记录了越狱攻击带来的威胁,引入并分析了一个用于评估防御干预措施的数据集,并提出了受心理学启发的自我提醒技术,该技术无需进一步训练即可高效、有效地缓解越狱攻击。”