数据集:

ethos

任务:

文本分类

子任务:

multi-label-classification sentiment-classification

语言:

计算机处理:

monolingual

大小:

n<1K

语言创建人:

found other

批注创建人:

crowdsourced expert-generated

源数据集:

original

预印本库:

arxiv:2006.08328

其他:

Hate Speech Detection Hate+Speech+Detection

许可:

agpl-3.0

数据集介绍文件清单

英文

数据集卡 Ethos

数据集摘要

ETHOS: 在线仇恨言论检测数据集。该存储库包含了 Ethos 数据集，用于社交媒体平台上的仇恨言论检测。数据集有两个版本：

Ethos_Dataset_Binary：数据集中包含了998个评论以及有关仇恨言论存在与否的标签。其中有565个评论不包含仇恨言论，而剩下的433个包含仇恨言论。
Ethos_Dataset_Multi_Label：该数据集包含了433个带有仇恨言论内容的评论的8个标签。这些标签包括 violence（是否煽动暴力：是（1）或否（0））、directed_vs_general（是否针对个人：是（1）或群体（0））、以及有关仇恨言论类别的6个标签，如　gender、race、national_origin、disability、religion 和 sexual_orientation。

Ethos /ˈiːθɒs/ 是一个希腊词，意为“性格”，用来描述表征社群、国家或意识形态的指导信念或理想。希腊人还用这个词来指 music 对情绪、行为甚至道德的影响力。

支持的任务和排行榜

[需要更多信息]

text-classification-other-Hate Speech Detection、sentiment-classification、multi-label-classification：该数据集可用于训练仇恨言论检测模型。此外，它也可作为多标签分类算法的基准数据集。

语言

数据集中的文本为英文。

数据集结构

数据实例

二进制版本中的典型数据点包括一个评论，其中文本包含了评论的文本，标签描述了评论是否包含仇恨言论内容（1 - 仇恨言论）或不包含（0 - 非仇恨言论）。在多标签版本中，还会出现更多标签，如 violence （是否煽动暴力：是（1）或否（0））、directed_vs_general（是否针对个人：是（1）或群体（0）），以及有关仇恨言论类别的6个标签，如 gender、race、national_origin、disability、religion 和 sexual_orientation。

二进制版本中的一个示例，虽然具有攻击性，但并不包含仇恨言论内容：

{'text': 'What the fuck stupid people !!!',
 'label': '0'
}

多标签版本中包含针对女性（gender）的仇恨言论内容的示例：

{'text': 'You should know women's sports are a joke',
 `violence`: 0,
 `directed_vs_generalized`: 0,
 `gender`: 1,
 `race`: 0,
 `national_origin`: 0,
 `disability`: 0,
 `religion`: 0,
 `sexual_orientation`: 0
}

数据字段

Ethos 二进制版本：

text：一个字符串特征，包含评论的文本。
label：一个分类标签，可能的值包括 no_hate_speech、hate_speech。

Ethos 多标签版本：

text：一个字符串特征，包含评论的文本。
violence：一个分类标签，可能的值包括 not_violent、violent。
directed_vs_generalized：一个分类标签，可能的值包括 generalized、directed。
gender：一个分类标签，可能的值包括 false、true。
race：一个分类标签，可能的值包括 false、true。
national_origin：一个分类标签，可能的值包括 false、true。
disability：一个分类标签，可能的值包括 false、true。
religion：一个分类标签，可能的值包括 false、true。
sexual_orientation：一个分类标签，可能的值包括 false、true。

数据拆分

数据分为二进制版本和多标签版本。多标签版本是二进制版本的子集。

Instances	Labels
binary	998	1
multilabel	433	8

数据集创建

策划理由

该数据集通过收集 YouTube 视频的在线评论和 Reddit 上的评论创建，这些视频和子版块可能会引起仇恨言论内容。

资源数据

数据的初始收集和归一化

我们使用的初始数据来自 hatebusters 平台： Original data used ，但它们没有包含在这个数据集中

谁是源语言生产者？

语言生产者是 Reddit 和 YouTube 的用户。有关更多信息，请参阅这篇论文： ETHOS: an Online Hate Speech Detection Dataset

注释

注释过程

注释过程详见这篇论文的第三部分： ETHOS: an Online Hate Speech Detection Dataset

谁是注释者？

最初由 Ioannis Mollas 进行注释，并通过 Figure8 平台（APEN）进行验证。

个人和敏感信息

数据集中不包含个人和敏感信息。

使用数据时的注意事项

数据的社会影响

该数据集将有助于自动化仇恨言论检测工具的发展。这些工具对预防社会问题具有重要影响。

偏见讨论

该数据集尽量在其类别和标签上没有偏见。

其他已知限制

该数据集相对较小，应与较大的数据集结合使用。

其他信息

数据集策划者

该数据集最初由 Intelligent Systems Lab 创建。

许可信息

数据集的许可状态为 GNU GPLv3 。

引用信息

@misc{mollas2020ethos,
      title={ETHOS: an Online Hate Speech Detection Dataset}, 
      author={Ioannis Mollas and Zoe Chrysopoulou and Stamatis Karlos and Grigorios Tsoumakas},
      year={2020},
      eprint={2006.08328},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

贡献

感谢 @iamollas 添加了这个数据集。

作者:

佚名

数据集大小:

19.53 KB