Facebook的DEC AI发现了数亿个伪造账户
2019年12月16日 由 KING 发表
826398
0
Facebook表示,在2019年4月至9月期间,他们删除了超过32亿个虚假帐户,而去年同期为15亿多。增长的至少一部分归因于称为深度实体分类(DEC)的机器学习框架,Facebook 在2019 Scale会议期间首次详细介绍了该框架。 据研究人员Khodeir称,它旨在解决Facebook在其传统的自动伪造帐户检测方法中遇到的问题。从历史上看,团队会确定一组功能(例如帐户的年龄,朋友数量和位置),并将每个功能分别标记为“滥用”或“良性”数据,以用于训练帐户分类器模型。由于功能是由工程师手写的,因此功能空间相对较小,从而使攻击者更容易怀疑。最终,这些攻击者开始使用游戏的特定功能。例如,等到帐户到期后再使用它们发布有害内容。
相反,DEC通过汇总社交图中其他相关帐户的行为特征属性来提取帐户的“深层特征”。它本质上是递归的,每个帐户可产生20000多个功能,而数十个或数百个则不然。它使用多阶段,多任务学习技术,该技术使用大量的低精度自动生成的标签与少量的高精度人工提供的标签,从而减少了训练前所需的注释工作。
DEC首先按实体类型考虑帐户的直接特征,例如年龄和性别(用户实体),粉丝数和类别(页面),成员数(组),操作系统(设备)以及国家和声誉(IP地址)散布到与该帐户进行交互的其他实体。提取特征之后,在进行一阶和二阶筛选出结果之前,将以数字方式(例如,平均朋友组数)和类别(例如,最常见类别的百分比)应用聚合实体聚合在一起。该方法已使用三种不同的模型以及来自Facebook的大量生产数据进行了验证,一种仅具有直接特征的行为模型,具有数万种特征的DEC模型以及具有更大语料库的更复杂的DEC。结果表明,尽管基本行为模型无法以95%以上的准确性预测伪造帐户,但两种基于DEC的模型都超过了这一点,并且识别出了更多的伪造帐户。
Khodeir说:“在DEC投入生产的过去几年中,我们已经看到平台上滥用帐户的数量已逐步减少。即使攻击者的数量增加了,DEC的捕获量也几乎相同。”
DEC只是Facebook积极使用的一种自动技术,可用来打击其平台上的虚假帐户和滥用行为。