数据集:

LennardZuendorf/interpretor

语言:

en

大小:

10K<n<100K

预印本库:

arxiv:2012.15761

许可:

mit
英文

数据集名称的数据集卡片

这是对 this paper 的原始工作的编辑,我已经上传到Huggingface here 。这不是我的原创作品,只是我进行了编辑。数据用于同名的解释器模型,这是我本科论文的一部分。

原始数据集说明

  • 源主页: GitHub
  • 源联系人:bertievidgen@gmail.com
  • 原始来源: Dynamically-Generated-Hate-Speech-Dataset
  • 原始作者列表:Bertie Vidgen(艾伦·图灵研究院),Tristan Thrush(Facebook AI研究),Zeerak Waseem(谢菲尔德大学)和Douwe Kiela(Facebook AI研究)。

有关更多信息,请参阅Huggingface或GitHub Repo。

数据集摘要

此数据集包含动态生成的仇恨言论,已分成训练(90%)和测试(10%)。我打算将其用于类似的分类任务,如 this 模型。

语言

唯一表示的语言是英语。

数据集结构

数据实例

每个条目看起来像这样(训练和测试)。

{
  'id': ...,
  'text': ,
  ''
}

在此提供任何在其他部分中未涵盖的附加信息。特别是描述数据点之间的任何关系以及这些关系是否明确。.

数据字段

列出并描述数据集中存在的字段。提及它们的数据类型,以及它们是否被用作数据集当前支持的任何任务中的输入或输出。如果数据具有范围索引,请描述它们的属性,例如它们是在字符级还是单词级,它们是否是连续的等等。如果数据集包含示例ID,请说明它们是否具有固有含义,例如与其他数据集的映射或指向数据点之间的关系。

  • example_field:描述example_field的description

请注意,描述可以用Show Markdown Data Fields的输出初始化,然后只需完善生成的描述。

数据拆分

描述并命名数据集中的拆分(如果有多个)。

描述拆分数据的任何标准(如果有)。如果拆分之间存在差异(例如,如果训练注释是机器生成的,而开发和测试注释是由人工创建的,或者如果不同的注释者为每个示例贡献),请在此处描述。

提供每个拆分的大小。根据情况,提供特征的任何描述性统计信息,例如平均长度。例如:

train validation test
Input Sentences
Average Sentence Length

附加信息

授权信息

  • 原始存储库不提供任何许可证,但可在ACL 2021论文集中适当引用该原始论文
  • 可根据MIT许可证使用此数据集,并正确引用原始数据集和本源。
  • 但我建议从原始来源获取数据并进行自己的编辑。

引用信息

在使用时,请引用此存储库和原始作者。

贡献

我删除了一些数据字段,并使用Hugging Face数据集进行了新的拆分。