维基团队与Jigsaw合作审查社区中带有人身攻击的评论
2018年08月20日 由 浅浅 发表
375850
0
维基百科社区以人身攻击的评论臭名昭著。这个问题非常糟糕,以至于活跃的贡献者或编辑在八年期间下降了40%。尽管没有一个解决方案可以解决这个问题,但支持维基百科的非营利组织维基媒体基金会决定使用AI来更多地了解问题,并考虑如何解决这个问题。
为了阻止这一趋势,维基媒体基金会与Jigsaw(以前称为谷歌创意的技术孵化器)合作开展一项名为Detox的研究项目,使用机器学习来标记可能是人身攻击的评论。该项目是Jigsaw倡议的一部分,该计划旨在构建开源AI工具,以帮助打击社交媒体平台和网络论坛上的骚扰。
该项目的第一步是使用来自维基百科谈话页面的100000个攻击性评论来训练机器学习算法,这些评论由一个由4000人组成的团队确定,其中每个评论都有十个不同的人类评论者。这个带注释的数据集是有史以来最大的一个关注在线滥用的数据集。这些不仅包括直接的人身攻击,还包括第三方和间接的人身攻击,如“你太讨厌了”“Bob太讨厌了”“Sally说Bob很讨人厌”。经过训练,机器可以像三个人类版主一样确定评论是人身攻击。
然后,项目团队在2001年至2015年的14年期间,通过算法审查了6300万条英语维基百科评论,以查找滥用评论中的模式。他们发现的内容在Ex Machina: Personal Attacks Seen中进行了概述:
- 超过80%的评论被描述为辱骂,超过9 000人在一年内发表了少于5次的辱骂。
- 所有攻击中近10%仅由34名用户发出。
- 匿名用户占维基百科留下的所有评论的34%。
- 虽然匿名用户发起人身攻击的可能性是后者的六倍,但是注册用户进行了一半以上的人身攻击(注册用户数比匿名用户多20倍)。
现在,算法已经更清晰地了解了谁在为社区增添负面内容,维基百科可以找出消除负面情绪的最佳方法。虽然可能仍需要人工节制,但算法可以帮助对评论进行排序,并标记需要人为参与的评论。
AI编写维基百科文章
AI也可以“写”维基百科的文章,但必须从某个地方开始:谷歌大脑中的一个团队教软件来总结网页上的信息,并撰写一篇维基百科风格的文章。事实证明,文本摘要比我们大多数人想象的要困难得多。谷歌大脑让机器总结内容的努力比以前的尝试稍微好一些,但是在机器可以用人类的节奏和天赋写出之前还有很多工作要做。事实证明,人类还没有准备好让机器自动生成维基百科条目,但是我们正在努力。
虽然维基百科运营中AI的使用案例仍在进行优化,但机器无疑可以帮助组织分析他们每天产生的大量数据。更好的信息和分析可以帮助维基百科创建成功的策略,以解决其社区的消极性问题。