数据集:
LennardZuendorf/interpretor
这是对 this paper 的原始工作的编辑,我已经上传到Huggingface here 。这不是我的原创作品,只是我进行了编辑。数据用于同名的解释器模型,这是我本科论文的一部分。
有关更多信息,请参阅Huggingface或GitHub Repo。
此数据集包含动态生成的仇恨言论,已分成训练(90%)和测试(10%)。我打算将其用于类似的分类任务,如 this 模型。
唯一表示的语言是英语。
每个条目看起来像这样(训练和测试)。
{ 'id': ..., 'text': , '' }
在此提供任何在其他部分中未涵盖的附加信息。特别是描述数据点之间的任何关系以及这些关系是否明确。.
列出并描述数据集中存在的字段。提及它们的数据类型,以及它们是否被用作数据集当前支持的任何任务中的输入或输出。如果数据具有范围索引,请描述它们的属性,例如它们是在字符级还是单词级,它们是否是连续的等等。如果数据集包含示例ID,请说明它们是否具有固有含义,例如与其他数据集的映射或指向数据点之间的关系。
请注意,描述可以用Show Markdown Data Fields的输出初始化,然后只需完善生成的描述。
描述并命名数据集中的拆分(如果有多个)。
描述拆分数据的任何标准(如果有)。如果拆分之间存在差异(例如,如果训练注释是机器生成的,而开发和测试注释是由人工创建的,或者如果不同的注释者为每个示例贡献),请在此处描述。
提供每个拆分的大小。根据情况,提供特征的任何描述性统计信息,例如平均长度。例如:
train | validation | test |
---|---|---|
Input Sentences | ||
Average Sentence Length |
在使用时,请引用此存储库和原始作者。
我删除了一些数据字段,并使用Hugging Face数据集进行了新的拆分。