数据集:
BigScienceBiasEval/bias-shades
许可:
cc-by-sa-4.0可能是原始数据的一个占位数据集: https://huggingface.co/datasets/bigscience-catalogue-data/bias-shades
如何使用此文档:根据说明填写每个部分。尽可能提供详细的信息,但不需要推断。目标是帮助人们在接近数据时理解数据。这可能是十年后的某个人,也可能是您自己在两年后回顾数据。
关于所有细节,请参考原始数据声明论文,网址: https://www.aclweb.org/anthology/Q18-1041/ 。
指令字段以块引用形式给出;完成后删除指令,并提供包含数据的文件,例如“DATASTATEMENT.md”。某些块中的列表被设计为填写,但最好也留下对所发生情况的书面描述,以及列表。如果不知道某些信息,可以跳过某些字段。
只有引用的内容应被删除;最终结果声明应保持不变。
数据集名称:Bias-Shades
引用(如果可用):TODO。
数据集开发者:此数据集是通过BigScience开放科学合作项目的数十名研究科学家合作编制的。参与此项目的协作者代表了众多文化和语言,他们自愿加入了该项目。
数据声明作者:Shayne Longpre,Aurélie Névéol,Shanya Sharma [如果您添加/编辑数据声明,请在此处添加姓名 ?]。
其他为本文档做出贡献的人员:N/A
许可证:知识共享署名-相同方式共享4.0(CC BY-SA 4.0)。
解释:选择了哪些文本,并且在原始收集和任何进一步的子选择中选择文本的目标是什么?在无法通过手工全面检查的大型数据集中,筛选理念的明确表述有助于数据集用户推断使用这些数据训练的系统可能会以什么其他类型的文本为广义性训练。
此数据集通过以目标文化的母语者手工制作刻板性句子进行筛选。初始的句子集是从crowS-pairs数据集(Nangia等人)中的刻板印象中推断出来的。首先,母语者为表达刻板印象的句子制作了模板。这些模板标注有目标名词的性别和复数,因此可以通过替换不同的目标来重复使用模板。接下来,模板-目标名词组合为表达的刻板印象的真实性/可靠性进行了注释。生成的句子表达了各种文化和语言中的常见和不常见的刻板印象。
解释:语言在结构上有所不同,可以与自然语言处理算法相互作用。在语言内部,区域或社会方言也可能存在很大的变化(Chambers和Trudgill,1998年)。应使用BCP-47语言标签描述语言和语言变体,以识别语言变体(例如en-US或yue-Hant-HK),并用描述性言语描述语言变体,简要描述BCP-47标签并提供更多信息(例如“作为在加利福尼亚州帕洛阿尔托说的英语”或者“香港讲普通话的人使用繁体字写成的粤语”)。
解释:社会语言学发现,变体(在发音、语调、词汇选择和语法上)与演讲者的人口统计特征相关(Labov,1966年),因为演讲者使用语言变体来构建和展示身份(Eckert和Rickford,2001年)。母语(L1)对非母语(L2)演讲者产生的语言也会产生影响(Ellis,1994年,第8章)。另外一个重要的变化类型是失调语言(例如言语障碍)。规格说明包括:
参与收集项目的参与者是通过HuggingFace BigScience项目招募的,特别是偏见和公平评估小组。请参阅下面的列表。
演讲者:
解释:注释员和注释指南开发人员的人口统计特征是什么?他们自己的“社会地址”会影响他们对所注释内容的体验和感知。规格说明包括:
参与收集项目的参与者是通过HuggingFace BigScience项目招募的,特别是偏见和公平评估小组。请参阅C部分列出的说话者和注释者的贡献者。
N/A
解释:流派和主题影响文本的词汇和结构特点(Biber,1995年),应该对其进行说明。
收集的数据是一系列带有冒犯性刻板印象陈述的多种语言和文化。它们可能令人不悦和/或冒犯。
除了这些刻板陈述外,还有有关表达的刻板印象在现实世界中有多流行/真实的注释判断。一些陈述是根据模板创建的,并且通过替换目标名词来表达不常见或不太可能的刻板印象。
N/A
解释:还可能有其他相关信息。请使用此空间开发适用于数据集的任何其他类别。
此举措是BigScience工作坊的一部分: https://bigscience.huggingface.co/ 。
数据声明是数据集的表征,提供上下文,使开发人员和用户能够更好地理解实验结果可能的推广性,软件可能的适当部署方式以及可能在软件构建的系统中反映出来的偏见。数据声明来自华盛顿大学。联系方式:datastatements@uw.edu。此文档模板的许可证是 CC0 。
这个markdown数据声明的版本是2020年6月4日。数据声明模板基于Emily M. Bender、Batya Friedman和Angelina McMillan-Major在 2020 LREC workshop on Data Statements 上分发的工作表。由Leon Dercyznski根据社区Markdown模板进行调整。