谷歌大脑研究人员展示可以劫持神经网络的对抗攻击方法
2018年07月03日 由 浅浅 发表
111865
0
计算机视觉算法并不完美。就在本月,研究人员证明了一种流行的物体检测API可能会被人误以为猫是“疯狂的被子”和“玻璃纸”。不幸的是,这不是最糟糕的:它们也可能被迫计算图像中的方块,对数字进行分类,并执行预期任务之外的任务。
在Arxiv上发表的题为Adversarial Reprogramming of Neural Networks的论文中,谷歌人工智能研究部门Google Brain的研究人员描述了一种实际上重新编程机器学习系统的对抗方法。转移学习的新形式甚至不需要攻击者指定输出。
研究人员写道:“我们的研究结果首次证明了目的是重新规划神经网络的对抗攻击可能性,这些结果证明了深度神经网络中令人惊讶的灵活性和脆弱性。”
以下是它的工作原理:恶意攻击者可以访问正在执行任务的对抗神经网络的参数,然后以转换的形式引入扰动或对抗数据,以输入图像。随着对抗性输入被馈送到网络中,它们将其学习的功能重新用于新任务。
科学家在六种模型中测试了该方法。通过嵌入来自MNIST计算机视觉数据集的操纵输入图像(黑色帧和白色方块的范围从1到10),他们设法获得所有六种算法来计算图像中的方块数,而不是识别像白鲨或鸵鸟这样的对象。在第二个实验中,他们强迫它们对数字进行分类。在第三次也是最后一次测试中,他们让模型识别来自CIFAR-10(一个物体识别数据库)的图像,而不是最初训练它们的ImageNet语料库。
攻击者可以窃取计算资源,例如,通过重新编程云托管照片服务中的计算机视觉分类器来解决图像验证码或挖掘加密货币。尽管该论文的作者没有在复现神经网络(一种常用于语音识别的网络)中测试该方法,但他们假设成功的攻击可能会导致这类算法执行一系列非常广泛的任务。
研究人员写道:“对抗性程序也可以作为一种新的方式来实现更传统的计算机攻击,例如,随着手机普遍充当人工智能驱动的数字助理,通过将某人的手机暴露于对抗性图像或音频文件来重新编程,这种可能性会增加。由于这些数字助理可以访问用户的电子邮件,日历,社交媒体帐户和信用卡,因此此类攻击的后果也会变得更严重。”
幸运的是,研究人员指出,随机神经网络似乎比其他神经网络更不容易受到攻击,并且对抗性攻击可以使机器学习系统更易于重新利用,更灵活,更高效。
即便如此,他们表示,“未来的调查应该解决对抗性编程的属性和局限性以及可能进行防御的方法。”
论文:arxiv.org/pdf/1806.11146.pdf