大型语言模型(LLMs),如支持ChatGPT运行的模型,现在被越来越多的人用于获取信息或编辑、分析和生成文本。随着这些模型变得越来越先进和普及,一些计算机科学家正在探索它们的局限性和漏洞,以便为未来的改进提供信息。
圣路易斯大学的两位研究人员Zhen Guo和Reza Tourani最近开发并展示了一种新的后门攻击,可以在不易被检测到的情况下操控LLMs的文本生成。这种攻击被称为DarkMind,并在最近的论文中发布于arXiv预印本服务器,强调了现有LLMs的漏洞。
“我们的研究源于个性化AI模型的日益普及,如OpenAI的GPT Store、谷歌的Gemini 2.0和HuggingChat,这些平台现在托管着超过4000个定制的LLMs,”该论文的资深作者Tourani告诉Tech Xplore。
“这些平台代表了向代理AI和推理驱动应用的重大转变,使AI模型更加自主、适应性强且广泛可及。然而,尽管它们具有变革潜力,但其对新兴攻击向量的安全性仍未得到充分检验——特别是嵌入在推理过程中的漏洞。”
Tourani和Guo最近研究的主要目标是探索LLMs的安全性,揭示所谓的链式思维(CoT)推理范式的现有漏洞。这是一种广泛使用的计算方法,允许基于LLM的对话代理如ChatGPT将复杂任务分解为顺序步骤。
“我们发现了一个显著的盲点,即基于推理的漏洞,这些漏洞不会在传统的静态提示注入或对抗性攻击中浮现,”Tourani说。“这促使我们开发了DarkMind,这是一种后门攻击,其中嵌入的对抗性行为在LLM的特定推理步骤中被激活之前保持休眠状态。”
<!-- TechX - News - In-article -->Tourani和Guo开发的隐蔽后门攻击利用了LLMs处理和生成文本的逐步推理过程。与过去引入的传统后门攻击需要操控用户查询以改变模型响应或重新训练模型不同,DarkMind在定制的LLM应用中嵌入了“隐藏触发器”,如OpenAI的GPT Store。
“这些触发器在初始提示中是不可见的,但在中间推理步骤中被激活,微妙地修改最终输出,”论文的第一作者、博士生Guo解释道。“因此,攻击保持潜伏且不可检测,使LLM在标准条件下正常运行,直到特定的推理模式触发后门。”
在进行初步测试时,研究人员发现DarkMind具有多种优势,使其成为一种高度有效的后门攻击。由于它在模型的推理过程中运行,而不需要操控用户查询,因此很难被检测到,导致的变化可能被标准安全过滤器捕捉到。
由于它动态修改LLMs的推理,而不是改变它们的响应,攻击在各种不同的语言任务中也有效且持久。换句话说,它可能会降低LLMs在跨不同领域任务中的可靠性和安全性。
“DarkMind具有广泛的影响,因为它适用于各种推理领域,包括数学、常识和符号推理,并在像GPT-4o、O1和LLaMA-3这样的最先进的LLMs上仍然有效,”Tourani说。“此外,像DarkMind这样的攻击可以通过简单的指令轻松设计,即使是对语言模型没有专业知识的用户也能有效地集成和执行后门,增加了广泛滥用的风险。”
OpenAI的GPT4和其他LLMs现在被集成到广泛的网站和应用程序中,包括一些重要服务,如银行或医疗平台。因此,像DarkMind这样的攻击可能会带来严重的安全风险,因为它们可以在不被检测的情况下操控这些模型的决策。
“我们的研究结果突显了LLMs推理能力中的一个关键安全漏洞,”Guo说。“值得注意的是,我们发现DarkMind在对抗具有更强推理能力的更先进的LLMs时表现出更大的成功。事实上,LLM的推理能力越强,它就越容易受到DarkMind攻击。这挑战了当前认为更强的模型本质上更稳健的假设。”
迄今为止开发的大多数后门攻击需要多次演示。相比之下,DarkMind即使在没有先前训练示例的情况下也被发现有效,这意味着攻击者甚至不需要提供他们希望模型如何出错的示例。
“这使得DarkMind在现实世界中具有高度实用性,”Tourani说。“DarkMind还优于现有的后门攻击。与BadChain和DT-Base相比,这些是针对基于推理的LLMs的最先进攻击,DarkMind更具弹性,并且在不修改用户输入的情况下运行,使其更难以检测和缓解。”
Tourani和Guo的最新工作可能很快会为开发更先进的安全措施提供信息,这些措施更好地应对DarkMind和其他类似的后门攻击。研究人员已经开始开发这些措施,并计划很快测试它们对DarkMind的有效性。
“我们的未来研究将集中于研究新的防御机制,如推理一致性检查和对抗性触发器检测,以增强缓解策略,”Tourani补充道。“此外,我们将继续探索LLMs的更广泛攻击面,包括多轮对话中毒和隐蔽指令嵌入,以发现更多漏洞并加强AI安全。”