数据集:

MicPie/unpredictable_phonearena-com

英文

"UnpredicTable-phonearena-com"的数据集卡 - 来自表格的Few-shot任务数据集

数据集概述

UnpredicTable数据集由格式为Few-shot任务的Web表格组成,用于微调语言模型,以提高其Few-shot性能。

有几个可用的数据集版本:

支持的任务和排行榜

由于表格来自于Web,因此任务和主题的分布非常广泛。我们的数据集的形状非常宽,即我们有数千个任务,而每个任务只有几个示例,与大多数当前NLP数据集相比,后者非常深,即有数十个任务和许多示例。这意味着我们的数据集涵盖了广泛的潜在任务范围,例如多项选择,问题回答,表格问题回答,文本分类等。

此数据集的预期用途是通过在我们的数据集上进行微调/预训练来改善Few-shot性能。

语言

英语

数据集结构

数据实例

每个任务表示为一个jsonline文件,并包含若干Few-shot示例。每个示例是一个字典,包含一个"task"字段,用于标识任务,然后是一个"input"、"options"和"output"字段。"input"字段包含表格中同一行的多个列元素,而"output"字段是一个目标,表示同一行的一个列。每个任务包含多个这样的示例,可以将它们连接为Few-shot任务。在多项选择分类的情况下,"options"字段包含模型需要选择的可能类别。

还有其他附加的元数据字段,如"pageTitle"、"title"、"outputColName"、"url"、"wdcFile"。

数据字段

'task':任务标识符

'input':表格中特定行的列元素。

'options':对于多项选择分类,提供可以选择的选项。

'output':与输入相同行的目标列元素。

'pageTitle':包含表格的页面标题。

'outputColName':输出列名称

'url':包含表格的网站URL

'wdcFile':WDC Web表格语料库文件

数据拆分

UnpredicTable数据集不附带其他数据拆分。

数据集创建

策划原理

已经证明,对多任务数据集进行Few-shot训练可以提高语言模型在新任务上的Few-shot学习(FSL)性能,但尚不清楚哪些训练任务会导致有效的下游任务适应。Few-shot学习数据集通常需要昂贵的人工策划,限制了可用于研究的训练任务的规模和多样性。作为少量数据的替代来源,我们自动从各种互联网表格中提取了413,299个任务。我们将其作为研究资源提供,以研究训练数据与Few-shot学习之间的关系。

源数据

初始数据收集和规范化

我们使用来自2015年WDC Web表格语料库(WTC)的英语关系子集的互联网表格。WTC数据集的表格是从2015年7月的Common Crawl网页语料库( http://webdatacommons.org/webtables/2015/EnglishStatistics.html )中提取的。该数据集包含来自323,160个网域的50,820,165个表格。然后我们将这些表格转换为Few-shot学习任务。有关数据收集和转换流程的更多详细信息,请参见我们的出版物。

谁是源语言的生产者?

该数据集是从 WDC Web Table Corpora 提取的。

注释

注释过程

仅对 UnpredicTable-rated-low UnpredicTable-rated-medium UnpredicTable-rated-high 数据子集进行了人工注释,以评估任务质量。注释说明的详细说明可以在我们的出版物中找到。

注释者是谁?

注释由实验室助手进行。

个人和敏感信息

数据是从 WDC Web Table Corpora 提取的,该数据又从 Common Crawl 提取了表格。我们没有以任何方式过滤数据。因此,我们的数据集中可能包含任何用户身份或其他敏感信息(例如,揭示种族或种族起源、性取向、宗教信仰、政治观点或工会会员身份或地点等的数据;财务或健康数据;生物识别或基因数据;政府身份识别形式,例如社会安全号码;犯罪记录等)。

使用数据的注意事项

数据的社会影响

该数据集旨在作为研究资源,用于研究训练数据与Few-shot学习之间的关系。因此,它包含高质量和低质量数据,以及可能不真实或不适当的多样内容。如果没有认真的调查,不应将其用于训练将部署在决策关键或面向用户的情况下使用的模型。

偏见讨论

由于我们的数据集包含从Web中抓取的表格,因此它也将包含许多有害的偏见和文本,如有毒、种族主义、性别歧视和其他有害的偏见。我们没有对我们的数据集中普遍存在的偏见进行任何分析。我们也没有明确筛选内容。这意味着在我们的数据集上训练的模型可能会反映出存在于我们数据集中的有害偏见和有毒文本。

其他已知限制

没有其他已知限制。

附加信息

数据集策划者

Jun Shern Chan, Michael Pieler, Jonathan Jao, Jérémy Scheurer, Ethan Perez

许可信息

Apache 2.0

引用信息

@misc{chan2022few,
  author = {Chan, Jun Shern and Pieler, Michael and Jao, Jonathan and Scheurer, Jérémy and Perez, Ethan},
  title = {Few-shot Adaptation Works with UnpredicTable Data},
  publisher={arXiv},
  year = {2022},
  url = {https://arxiv.org/abs/2208.01009}
}