AI可通过有限的标记数据训练模型以清除垃圾评论
2019年03月22日 由 马什么梅 发表
362476
0
评论会影响销售,这是一个众所周知的事实。大约71%的客户表示,在阅读其他人的印象后,他们会更愿意购买产品,而88%的客户表示评论会影响他们的购买决策。因此,需要有一种工具减少恶意第三方撰写的垃圾评论和操纵性评论。哈特曼集团和华盛顿大学的科学家们在这个具有挑战性的领域取得了进展。
在论文“GANs for Semi-Supervised Opinion Spam Detection”中,研究人员描述了“spamGAN”,一种生成的对抗网络,可通过有限的标记和未标记的数据语料库学习。
该论文的作者写道:“垃圾评论是电子商务,社交媒体,旅游网站,电影评论网站中普遍存在的问题。发送者试图通过提供影响读者的垃圾评论来利用这些财务收益,从而影响销售。我们认为垃圾评论是分类问题,如果进行审核,则需要将其归类为垃圾评论或非垃圾评论。”
正如团队解释的那样,由于预标签数据集的相对缺乏,识别垃圾评论是一个挑战。因此,该方法依赖于一种称为半监督学习的技术,其中未标记的数据与少量标记数据结合使用以产生学习准确性的提高。
具体来说,spamGAN的生成器组件输出新的句子,鉴别器试图将其分类为“真实”(从训练数据集中采样)或伪造的(不真实)。其性能用作反馈以改进生成器,具有更好的分类精度,从而获得更多奖励。
在对抗训练之前,研究人员用批量标记的真实句子,未标记的真实句子和假句子预先训练了模型。接下来,他们给spamGAN提供了1597条评论中的80%,这些评论都是用这个词标记的,剩余的20%用于验证AI模型的性能。
在每次重复10次的实验中,研究人员表示,spamGAN在标记数据有限的情况下优于现有的垃圾评论检测技术,只需10%的标记数据即可获得71%到86%的准确度(按F1得分衡量)。除了检测垃圾评论之外,spamGAN设法生成评论,尽管内容在一定程度是混乱的。
研究人员表示,“大多数关于垃圾评论的现有研究都是手工识别启发式和用于分类垃圾评论行为的特性;然而,在我们基于GAN的方法中,特征是通过神经网络学习的,我们相信spamGAN也可以生成垃圾评论和非垃圾评论。”
论文:
arxiv.org/pdf/1903.08289.pdf