数据集:
ethos
ETHOS: 在线仇恨言论检测数据集。该存储库包含了 Ethos 数据集,用于社交媒体平台上的仇恨言论检测。数据集有两个版本:
Ethos /ˈiːθɒs/ 是一个希腊词,意为“性格”,用来描述表征社群、国家或意识形态的指导信念或理想。希腊人还用这个词来指 music 对情绪、行为甚至道德的影响力。
[需要更多信息]
数据集中的文本为英文。
二进制版本中的典型数据点包括一个评论,其中文本包含了评论的文本,标签描述了评论是否包含仇恨言论内容(1 - 仇恨言论)或不包含(0 - 非仇恨言论)。在多标签版本中,还会出现更多标签,如 violence (是否煽动暴力:是(1)或否(0))、directed_vs_general(是否针对个人:是(1)或群体(0)),以及有关仇恨言论类别的6个标签,如 gender、race、national_origin、disability、religion 和 sexual_orientation。
二进制版本中的一个示例,虽然具有攻击性,但并不包含仇恨言论内容:
{'text': 'What the fuck stupid people !!!', 'label': '0' }
多标签版本中包含针对女性(gender)的仇恨言论内容的示例:
{'text': 'You should know women's sports are a joke', `violence`: 0, `directed_vs_generalized`: 0, `gender`: 1, `race`: 0, `national_origin`: 0, `disability`: 0, `religion`: 0, `sexual_orientation`: 0 }
Ethos 二进制版本:
Ethos 多标签版本:
数据分为二进制版本和多标签版本。多标签版本是二进制版本的子集。
Instances | Labels | |
---|---|---|
binary | 998 | 1 |
multilabel | 433 | 8 |
该数据集通过收集 YouTube 视频的在线评论和 Reddit 上的评论创建,这些视频和子版块可能会引起仇恨言论内容。
我们使用的初始数据来自 hatebusters 平台: Original data used ,但它们没有包含在这个数据集中
谁是源语言生产者?语言生产者是 Reddit 和 YouTube 的用户。有关更多信息,请参阅这篇论文: ETHOS: an Online Hate Speech Detection Dataset
注释过程详见这篇论文的第三部分: ETHOS: an Online Hate Speech Detection Dataset
谁是注释者?最初由 Ioannis Mollas 进行注释,并通过 Figure8 平台(APEN)进行验证。
数据集中不包含个人和敏感信息。
该数据集将有助于自动化仇恨言论检测工具的发展。这些工具对预防社会问题具有重要影响。
该数据集尽量在其类别和标签上没有偏见。
该数据集相对较小,应与较大的数据集结合使用。
该数据集最初由 Intelligent Systems Lab 创建。
数据集的许可状态为 GNU GPLv3 。
@misc{mollas2020ethos, title={ETHOS: an Online Hate Speech Detection Dataset}, author={Ioannis Mollas and Zoe Chrysopoulou and Stamatis Karlos and Grigorios Tsoumakas}, year={2020}, eprint={2006.08328}, archivePrefix={arXiv}, primaryClass={cs.CL} }
感谢 @iamollas 添加了这个数据集。