研究人员发现,基于文本的人工智能模型更容易被改写攻击
2019年04月02日 由 yining 发表
981696
0
由于自然语言处理(NLP)的进步,公司和组织越来越多地使用人工智能算法来执行与文本相关的任务,例如过滤垃圾邮件、分析社交媒体帖子和在线评论的情绪、评估简历和检测假新闻。
但是,我们可以相信这些算法能够可靠地执行任务吗?IBM、Amazon和德克萨斯大学的最新研究证明,图谋不轨的人可以使用某些未知的工具来攻击文本分类算法,并操纵其行为。
这项研究今天在斯坦福大学的SysML人工智能会议上发表,“文本改写”攻击的过程涉及修改输入文本,以便人工智能算法在不改变其实际含义的情况下对其进行不同的分类。
要了解转述攻击的工作原理,请考虑一个评估电子邮件文本并将其分类为“垃圾邮件”或“非垃圾邮件”的人工智能算法。转述攻击会修改垃圾邮件的内容,以便人工智能将其分类为“非垃圾邮件”,但是人们在点开垃圾邮件后,显示出来的仍然是垃圾内容。
对抗性攻击文本模型的挑战
在过去的几年里,几个研究小组已经探索了文本对抗性攻击的各个方面,输入修改意味着人工智能算法会错误分类文字、图像和音频样本,同时保留其原始内容。当然攻击文本模型比篡改计算机视觉和音频识别算法要困难得多,所以我们也得以制止。
人工智能研究员、语言模型专家斯蒂芬·梅里提说:“对于音频和图像,你有完全的可辨别性。”例如,在图像分类算法中,可以逐渐更改像素的颜色,并观察这些修改如何影响模型的输出。这可以帮助研究人员在模型中找到漏洞。
“传统上,文本更难被攻击,因为语言本身是离散的。当你想改变一句话的含义时,你不能说我想在这句话里多说10%的“我有一条狗”,你想改变文本的意思就只能通过增加文字或者删除其他文字,这就导致研究人员不能有效地搜索一个模型中的漏洞,”Merity说。“目前文本攻击的想法,首先要找出机器的弱点,并利用这个弱点进行攻击?“
“对于图像和音频,进行对抗性干扰是有意义的。对于文本,即使你对一个摘录文本做一些小小的改动,比如改变一两个词的顺序,那这段话对人类来说读起来就会不顺畅,”IBM的研究员、今天发表的这篇研究论文的合著者Pin Yu Chen说。
创建释义示例
过去针对文本模型的对抗性攻击研究涉及改变句子中的单个单词。虽然这种方法成功地改变了人工智能算法的输出,但它常常导致句子不通顺,听起来就像是人工合成的。“我们正在改写单词和句子的组成。我们要通过创建语义上类似于目标句子的序列,给攻击提供更大的空间。然后我们看看这个AI模型是否像对待最初的句子那样对修改后的句子进行分类,”。
研究人员开发了一种算法来寻找句子的最佳变化,这种变化可以操纵NLP模型的行为。“主要约束是确保修改后的文本在语义上与原始文本相似。我们开发了一种算法,在很大的空间内搜索同义词和表意想死的句子进行修改,这将对人工智能模型的输出产生最大的影响。在相似空间找到最好的对抗性例子是非常耗时的。该算法的计算效率很高,而且提供了理论上的保证,目前它是我们能找到的最佳搜索方法”IBM Research的科学家、论文的另一位合著者Lingfei Wu说。
在他们的论文中,研究人员提供了一些修改后的例子,这些修改可以改变情绪分析算法、假新闻检测器和垃圾邮件过滤器的行为。例如,在一次产品评论中,通过简单地用“价格也比一些大公司便宜”这句话与“价格比下面的一些大公司便宜”交换,评论的情绪从100%积极变为100%消极。
人类看不到释义攻击
释义攻击能够成功的关键在于它们对人类是不可察觉的,因为它们保留了原文和含义。
“我们把原来的段落和修改过的段落交给了人类评估者,他们很难看到意义上的差异。但对于机器来说,情况完全不同,”研究人员说。
梅里蒂指出,“人类无法正确的检测出这些文本问题,因为人们自己都会犯错。对我们来说,一段奇怪的文字只是一个人的胡言乱语罢了,”他说。“当人们看到错字或者语义不流畅时,他们不认为这是安全问题,甚至会自行理解其中的意思。但在不久的将来,这可能是我们必须面对的问题。”
梅里蒂还指出,释义和对抗性攻击将引发一种新的安全风险。“许多科技公司依靠自动化决策来对内容进行分类,实际上不涉及人与人之间的交互。这使得这个过程更容易受到这样的攻击,”梅里蒂说。“它将与数据泄露同时存在。”例如,一个人可能会欺骗文本分类器来批准他们的内容,或者利用简历处理模型中的改写漏洞将他们的工作应用程序推到列表的顶部。
“这些新的问题将会划分出一个新的安全领域,我担心大多数公司在这些新兴安全领域的预算将与其他安全领域的预算一样少,因为他们专注于可自动化和可扩展性,对背后的隐患视而不见”Merity警告说。
充分利用这项技术
研究人员还发现,通过逆向转述攻击,他们可以建立更加健壮和准确的模型。
在生成模型错误分类的释义语句后,开发人员可以使用修改后的语句和正确的标签重新定义其模型。这将使模型对改写攻击更有弹性,更加准确。
“这是我们在这个项目中得到的最令人惊讶的发现之一。最初,我们从稳健性的角度开始。但我们发现,这种方法不仅提高了鲁棒性,而且还提高了可归纳性,”吴说。“如果不考虑攻击,只考虑增强模型的最佳方法是什么,那么释义对抗性攻击是提高模型功能的非常好的泛化工具。”
研究人员在对抗性训练前后测试了不同的单词和句子模型,经过训练的模型都有性能和抗攻击能力的提高。