虚假新闻自动检测器的缺陷
2019年10月18日 由 TGS 发表
63950
0
21世纪网络上充斥着大量的虚假信息,这是大数据时代不可避免的顽疾,娱乐信息自不必提,据欧洲研究委员会的公开研究资料显示,在2016年美国总统大选期间,有四分之一的美国人至少浏览过一篇假新闻。之后,因为自动文本生成器的横空出世,虚假新闻的问题更是加剧到了极为严重的地步,于是就有研究人员开发了一种自动检测器,可以识别这种机器生成的文本。然而,麻省理工学院计算机科学和人工智能实验室(CSAIL)的一个团队却发现,这种方法并不完善。
为了证明自己的观点,该团队的研究人员开发了可以欺骗最先进假新闻探测器的攻击系统,这个系统主要靠模仿人写文章,借以欺骗探测器。除了不够灵活外,检测器本身还有一个重大缺陷:
在绝大多数时候,检测器会认为机器生成的文本都是假的,因此它可能会错误地将正确合法的自动生成文本判定为假新闻。
为此,麻省理工团队的研究员提出了一个策略,希望能够帮助探测器弥补缺陷。该团队创建了一个数据集,通过消除固有偏见,改变机器思维模式纠正了探测器的一些错误,随后他们又开发了一种新的算法,降低短语在相应类别中特别常见的情况的重要性,与此同时提高短语在该类别中很少见的情况的重要性。简单来说,就是通过更改短语的权重,让其跳出固有的思维模式,进而从根本上,针对克制根据普遍性常理来生成文章的自动文本生成器。
利用这种方式,可以很有效的克制当前的文本生成器,但是也仅仅只是克制当前的生成器而已。因为只要有心人更改文本自动生成器的算法序列,就可以反过来克制探测器,这是近乎无解的循环。
对此,该团队提出了一个策略——通过将真假核查与现有防御相结合,使模型对攻击更加敏感。与此同时,通过开发新的算法和构建涵盖更多类型错误信息的数据集,来进一步改进现有模型。
抱着从根本源头上解决问题的决心,麻省理工研究小组将于十月在香港举行的“自然语言处理的经验方法”会议上,提交一份以去偏存正为基础的研究报告,公开他们的研究成果。