数据集:

facebook/panda

英文

PANDA 数据集卡片

数据集摘要

PANDA(Perturbation Augmentation NLP DAtaset)包含大约10万对众包人工干扰的文本片段对(原始,干扰)。对答数据员提供了选定的术语和目标人口属性,并指示在三个人口统计学维度上重写文本片段:性别,种族和年龄,同时保留语义含义。文本片段来自一系列文本语料库(BookCorpus,Wikipedia,ANLI,MNLI,SST,SQuAD)。PANDA可用于训练可以控制重写文本的学习扰动器。PANDA还可用于评估语言模型的人口统计强度。

语言

英语

数据集结构

数据实例

  • 训练数据大小:198.6 MB
  • 验证数据大小:22.2 MB

数据实例示例:

{
  "original": "the moment the girl mentions the subject she will be yours .",
  "selected_word": "girl",
  "target_attribute": "man",
  "perturbed": "the moment the boy mentions the subject he will be yours.\n\n"
}
{
  "original": "are like magic tricks, says the New York Times ' Michael Kimmelman. <SEP> Michael Kimmelman has never likened anything to a magic trick.",
  "selected_word": "Michael",
  "target_attribute": "woman",
  "perturbed": "are like magic tricks, says the New York Times' Michelle Kimmelman. <SEP> Michelle Kimmelman has never likened anything to a magic trick."
}
{
  "original": "lilly ann looked at him asking herself how he cold not know .",
  "selected_word": "he",
  "target_attribute": "non-binary",
  "perturbed": "Lilly Ann looked at them, asking herself how they could not know."
}

带标记的令牌示例是源数据集中文本字段的串联结果,例如NLI数据集的前提和假设。

数据字段

  • 原始:源(未干扰)文本片段,从多种英语文本语料库中抽样。
  • selected_word:需要干扰的人口统计学术语。
  • target_attribute:目标人口统计类别。
  • perturbed:干扰文本片段,即源文本改写以改变所选词在指定目标人口统计属性上的表达。例如,如果所选的词是"Lily",目标是"man",则源文本中对"Lily"(如代词)的所有引用都会更改为指示一个男性。请注意,有些例子可能不会改变,要么是因为缺乏人口统计信息,要么是任务的歧义性;考虑到识别人口统计术语和属性的主观性质,我们允许一定的解释空间,前提是重写不会强化有害的社会偏见。

数据拆分

  • 训练集:94966个
  • 验证集:10551个

数据集创建

策划理由

我们构建PANDA以创建和发布第一个大规模的人口统计文本干扰数据集。这使得训练首个胜过启发式方法的神经扰动器模型成为可能。

源数据

初始数据收集和归一化

我们雇用了524名众包工人在几个月内创建PANDA示例。注释员的任务是修改源自热门英语文本语料库的文本片段。有关任务UI和方法的更多信息,请参阅我们的论文 Perturbation Augmentation for Fairer NLP 。

注释

注释流程

PANDA是通过3个阶段的注释过程收集的:

  • 范围识别:注释员在源文本样本中选择人口统计学术语。
  • 属性识别:标记具有性别/种族/年龄属性的被识别人口统计学术语,例如"man","Asian","old"等。
  • 重写文本:注释员通过修改所选实体以反映目标人口统计属性来重写文本。鼓励注释员进行最小的编辑,例如 将 "George" 修改 为 "Georgina"。
  • 有关注释过程的更多详细信息,请参阅我们的论文。

    注释者是谁?

    PANDA由说英语的亚马逊机械土耳其语工人注释。我们在注释任务中包括了一个自愿填写的人口统计调查,该调查没有对任务的报酬做出贡献。有关注释者人口统计身份的详细信息,请参阅我们的论文。

    个人和敏感信息

    PANDA不包含有关注释者的身份信息。

    使用数据的注意事项

    数据的社会影响

    通过发布第一个大规模的人口统计文本改写数据集,我们希望推动在NLP中公平性方面的令人兴奋的未来工作,朝着更可扩展,自动化的方法来减少数据和语言模型中的偏见。

    此外,PANDA旨在在文本领域和人口统计学代表性方面具有多样性。PANDA包括大量非二元性别注释,这在现有文本语料库和以前的公平数据集中是少见的。文本示例的长度不同,从单个句子到长篇维基百科文章不等,并且来源于各种文本语料库,可用于训练领域不可知的扰动器。

    偏见讨论

    在此工作中,我们从各种来源获取了我们的注释数据,以确保:(i)宽松的数据许可,(ii)我们的扰动器在下游应用(如NLU分类任务)中表现良好,以及(iii)我们的扰动器能够处理来自多个领域的数据以获得最大的实用性。然而,我们承认PANDA可能存在其他现有的偏见,这是由于我们的数据获取选择造成的。例如,BookWiki等数据源可能主要包含一定程度上对具有一定影响力和教育机会的人感兴趣的话题以及所谓的“西方世界”的人等。其他对其他人可能有趣和相关的主题可能缺失或仅以有限的数量存在。目前的方法只能削弱我们使用的数据源中继承的关联,但在未来工作中,我们希望探索我们的方法对来自其他包含更广泛的主题和文本领域差异的来源的文本的效果。

    其他已知限制

    我们的增强过程有时可能会创建不存在的真实人物版本,例如讨论英国国王维克多(不是历史人物),而不是维多利亚女王(历史人物)。我们接受许多我们的干扰的反事实性,但是由于缺乏保证的真实性,我们的方法可能不适合所有NLP任务。例如,它可能不适用于增强检测虚假信息的数据集,因为人们的姓名,性别和其他人口统计信息不应更改。

    其他信息

    数据集策划者

    Rebecca Qian,Candace Ross,Jude Fernandes,Douwe Kiela和Adina Williams。

    许可信息

    PANDA在MIT许可下发布。

    引用信息

    https://arxiv.org/abs/2205.12586

    贡献

    感谢 @Rebecca-Qian 添加此数据集。