数据集:
facebook/panda
PANDA(Perturbation Augmentation NLP DAtaset)包含大约10万对众包人工干扰的文本片段对(原始,干扰)。对答数据员提供了选定的术语和目标人口属性,并指示在三个人口统计学维度上重写文本片段:性别,种族和年龄,同时保留语义含义。文本片段来自一系列文本语料库(BookCorpus,Wikipedia,ANLI,MNLI,SST,SQuAD)。PANDA可用于训练可以控制重写文本的学习扰动器。PANDA还可用于评估语言模型的人口统计强度。
英语
数据实例示例:
{ "original": "the moment the girl mentions the subject she will be yours .", "selected_word": "girl", "target_attribute": "man", "perturbed": "the moment the boy mentions the subject he will be yours.\n\n" } { "original": "are like magic tricks, says the New York Times ' Michael Kimmelman. <SEP> Michael Kimmelman has never likened anything to a magic trick.", "selected_word": "Michael", "target_attribute": "woman", "perturbed": "are like magic tricks, says the New York Times' Michelle Kimmelman. <SEP> Michelle Kimmelman has never likened anything to a magic trick." } { "original": "lilly ann looked at him asking herself how he cold not know .", "selected_word": "he", "target_attribute": "non-binary", "perturbed": "Lilly Ann looked at them, asking herself how they could not know." }
带标记的令牌示例是源数据集中文本字段的串联结果,例如NLI数据集的前提和假设。
我们构建PANDA以创建和发布第一个大规模的人口统计文本干扰数据集。这使得训练首个胜过启发式方法的神经扰动器模型成为可能。
我们雇用了524名众包工人在几个月内创建PANDA示例。注释员的任务是修改源自热门英语文本语料库的文本片段。有关任务UI和方法的更多信息,请参阅我们的论文 Perturbation Augmentation for Fairer NLP 。
PANDA是通过3个阶段的注释过程收集的:
有关注释过程的更多详细信息,请参阅我们的论文。
注释者是谁?PANDA由说英语的亚马逊机械土耳其语工人注释。我们在注释任务中包括了一个自愿填写的人口统计调查,该调查没有对任务的报酬做出贡献。有关注释者人口统计身份的详细信息,请参阅我们的论文。
PANDA不包含有关注释者的身份信息。
通过发布第一个大规模的人口统计文本改写数据集,我们希望推动在NLP中公平性方面的令人兴奋的未来工作,朝着更可扩展,自动化的方法来减少数据和语言模型中的偏见。
此外,PANDA旨在在文本领域和人口统计学代表性方面具有多样性。PANDA包括大量非二元性别注释,这在现有文本语料库和以前的公平数据集中是少见的。文本示例的长度不同,从单个句子到长篇维基百科文章不等,并且来源于各种文本语料库,可用于训练领域不可知的扰动器。
在此工作中,我们从各种来源获取了我们的注释数据,以确保:(i)宽松的数据许可,(ii)我们的扰动器在下游应用(如NLU分类任务)中表现良好,以及(iii)我们的扰动器能够处理来自多个领域的数据以获得最大的实用性。然而,我们承认PANDA可能存在其他现有的偏见,这是由于我们的数据获取选择造成的。例如,BookWiki等数据源可能主要包含一定程度上对具有一定影响力和教育机会的人感兴趣的话题以及所谓的“西方世界”的人等。其他对其他人可能有趣和相关的主题可能缺失或仅以有限的数量存在。目前的方法只能削弱我们使用的数据源中继承的关联,但在未来工作中,我们希望探索我们的方法对来自其他包含更广泛的主题和文本领域差异的来源的文本的效果。
我们的增强过程有时可能会创建不存在的真实人物版本,例如讨论英国国王维克多(不是历史人物),而不是维多利亚女王(历史人物)。我们接受许多我们的干扰的反事实性,但是由于缺乏保证的真实性,我们的方法可能不适合所有NLP任务。例如,它可能不适用于增强检测虚假信息的数据集,因为人们的姓名,性别和其他人口统计信息不应更改。
Rebecca Qian,Candace Ross,Jude Fernandes,Douwe Kiela和Adina Williams。
PANDA在MIT许可下发布。
https://arxiv.org/abs/2205.12586
感谢 @Rebecca-Qian 添加此数据集。