数据集:

BigScienceBiasEval/bias-shades

英文

可能是原始数据的一个占位数据集: https://huggingface.co/datasets/bigscience-catalogue-data/bias-shades

SHADES 数据声明

如何使用此文档:根据说明填写每个部分。尽可能提供详细的信息,但不需要推断。目标是帮助人们在接近数据时理解数据。这可能是十年后的某个人,也可能是您自己在两年后回顾数据。

关于所有细节,请参考原始数据声明论文,网址: https://www.aclweb.org/anthology/Q18-1041/

指令字段以块引用形式给出;完成后删除指令,并提供包含数据的文件,例如“DATASTATEMENT.md”。某些块中的列表被设计为填写,但最好也留下对所发生情况的书面描述,以及列表。如果不知道某些信息,可以跳过某些字段。

只有引用的内容应被删除;最终结果声明应保持不变。

数据集名称:Bias-Shades

引用(如果可用):TODO。

数据集开发者:此数据集是通过BigScience开放科学合作项目的数十名研究科学家合作编制的。参与此项目的协作者代表了众多文化和语言,他们自愿加入了该项目。

数据声明作者:Shayne Longpre,Aurélie Névéol,Shanya Sharma [如果您添加/编辑数据声明,请在此处添加姓名 ?]。

其他为本文档做出贡献的人员:N/A

许可证:知识共享署名-相同方式共享4.0(CC BY-SA 4.0)。

A. 筛选原理

解释:选择了哪些文本,并且在原始收集和任何进一步的子选择中选择文本的目标是什么?在无法通过手工全面检查的大型数据集中,筛选理念的明确表述有助于数据集用户推断使用这些数据训练的系统可能会以什么其他类型的文本为广义性训练。

此数据集通过以目标文化的母语者手工制作刻板性句子进行筛选。初始的句子集是从crowS-pairs数据集(Nangia等人)中的刻板印象中推断出来的。首先,母语者为表达刻板印象的句子制作了模板。这些模板标注有目标名词的性别和复数,因此可以通过替换不同的目标来重复使用模板。接下来,模板-目标名词组合为表达的刻板印象的真实性/可靠性进行了注释。生成的句子表达了各种文化和语言中的常见和不常见的刻板印象。

B. 语言种类

解释:语言在结构上有所不同,可以与自然语言处理算法相互作用。在语言内部,区域或社会方言也可能存在很大的变化(Chambers和Trudgill,1998年)。应使用BCP-47语言标签描述语言和语言变体,以识别语言变体(例如en-US或yue-Hant-HK),并用描述性言语描述语言变体,简要描述BCP-47标签并提供更多信息(例如“作为在加利福尼亚州帕洛阿尔托说的英语”或者“香港讲普通话的人使用繁体字写成的粤语”)。

  • BCP-47语言标签:en-US、fr-FR、hi-IN、es-DO、ar-LY、ru-RU、de-DE、nl-NL、ta-IN。
  • 语言种类描述:母语为英语的美国人,来自法国大都市的法国人,来自印度的母语为印地语和泰米尔语的人们,来自多米尼加共和国的西班牙语使用者,来自利比亚的阿拉伯语使用者,来自俄罗斯的俄语使用者,来自德国的德语使用者和来自荷兰的荷兰语使用者。

C. 贡献者人口统计特征

C. 演讲者人口统计特征

解释:社会语言学发现,变体(在发音、语调、词汇选择和语法上)与演讲者的人口统计特征相关(Labov,1966年),因为演讲者使用语言变体来构建和展示身份(Eckert和Rickford,2001年)。母语(L1)对非母语(L2)演讲者产生的语言也会产生影响(Ellis,1994年,第8章)。另外一个重要的变化类型是失调语言(例如言语障碍)。规格说明包括:

参与收集项目的参与者是通过HuggingFace BigScience项目招募的,特别是偏见和公平评估小组。请参阅下面的列表。

演讲者:

  • [添加你自己!]
  • Shayne Longpre:英语为母语,男性,28岁,有加拿大文化背景。
  • Aurélie Névéol:法语(母语),英语和西班牙语为使用语,女性,44岁,法国文化(熟悉美国文化)。
  • Shanya Sharma:印地语(母语),英语使用,女性,24岁,印度文化。
  • Margaret Mitchell:英语,女性,30岁中期,来自美国。
  • Maraim Masoud:阿拉伯语,讲英语的女性。

D. 注释员的人口统计特征

解释:注释员和注释指南开发人员的人口统计特征是什么?他们自己的“社会地址”会影响他们对所注释内容的体验和感知。规格说明包括:

参与收集项目的参与者是通过HuggingFace BigScience项目招募的,特别是偏见和公平评估小组。请参阅C部分列出的说话者和注释者的贡献者。

E. 演讲情景

N/A

F. 文本特点

解释:流派和主题影响文本的词汇和结构特点(Biber,1995年),应该对其进行说明。

收集的数据是一系列带有冒犯性刻板印象陈述的多种语言和文化。它们可能令人不悦和/或冒犯。

除了这些刻板陈述外,还有有关表达的刻板印象在现实世界中有多流行/真实的注释判断。一些陈述是根据模板创建的,并且通过替换目标名词来表达不常见或不太可能的刻板印象。

G. 录音质量

N/A

H. 其他

解释:还可能有其他相关信息。请使用此空间开发适用于数据集的任何其他类别。

I. 真实性附录

此举措是BigScience工作坊的一部分: https://bigscience.huggingface.co/

关于此文档

数据声明是数据集的表征,提供上下文,使开发人员和用户能够更好地理解实验结果可能的推广性,软件可能的适当部署方式以及可能在软件构建的系统中反映出来的偏见。数据声明来自华盛顿大学。联系方式:datastatements@uw.edu。此文档模板的许可证是 CC0

这个markdown数据声明的版本是2020年6月4日。数据声明模板基于Emily M. Bender、Batya Friedman和Angelina McMillan-Major在 2020 LREC workshop on Data Statements 上分发的工作表。由Leon Dercyznski根据社区Markdown模板进行调整。