数据集:

MicPie/unpredictable_cluster06

任务:

多项选择

问答

零样本分类

子任务:

multiple-choice-qa extractive-qa open-domain-qa

语言:

计算机处理:

monolingual

大小:

100K<n<1M

语言创建人:

found

批注创建人:

no-annotation

预印本库:

arxiv:2208.01009

许可:

apache-2.0

数据集介绍文件清单

英文

"UnpredicTable-cluster06"数据集的数据卡 - 来自表格的少样本任务数据集

数据集概述

UnpredicTable数据集由格式化为少样本任务的网络表格组成，用于微调语言模型，以提高其少样本性能。

有几个可用的数据集版本：

UnpredicTable-full ：从最初的WTC语料库（50M张表格）开始，我们对表格进行任务处理，得到了我们的结果数据集 UnpredicTable-full ，该数据集包含来自23,744个唯一网站的413,299个任务。
UnpredicTable-unique ：这与 UnpredicTable-full 相同，但经过筛选，每个网站最多只有一个任务。 UnpredicTable-unique 包含来自23,744个网站的准确的23,744个任务。
UnpredicTable-5k ：该数据集包含来自完整数据集的5000个随机表格。
根据手动人工质量评分(UnpredicTable数据子集，请参阅我们的出版物获取评分详细信息)：
根据来源网站的UnpredicTable数据子集：
根据聚类得到的UnpredicTable数据子集（有关聚类详细信息，请参阅我们的出版物）：

支持的任务和排行榜

由于表格来自网络，任务和主题的分布非常广泛。我们的数据集的形式非常宽，即我们有成千上万的任务，而每个任务只有很少的示例，与目前大多数NLP数据集非常深，即有着许多示例的数十个任务相比。这意味着我们的数据集涵盖了各种潜在任务，例如多项选择、问题回答、表格问题回答、文本分类等。

该数据集的预期使用是通过在我们的数据集上进行微调/预训练来提高少样本性能。

语言

英语

数据集结构

数据实例

每个任务表示为jsonline文件，包含几个少样本示例。每个示例都是一个字典，包含一个字段'task'，用于标识任务，接下来是一个'input'、'options'和'output'字段。'input'字段包含表格中同一行的若干列元素，而'output'字段是一个目标，表示同一行的单个列。每个任务包含若干这样的示例，可以将其连接起来作为一个少样本任务。在多项选择分类的情况下，'options'字段包含模型需要选择的可能类别。

还有其他元数据字段，如'pageTitle'、'title'、'outputColName'、'url'、'wdcFile'。

数据字段

'task'：任务标识符

'input'：表格中特定行的列元素。

'options'：对于多项选择分类，它提供需要选择的选项。

'output'：与输入相同行的目标列元素。

'pageTitle'：包含表格的页面标题。

'outputColName'：输出列名

'url'：包含表格的网站的URL

'wdcFile'：WDC Web表格语料库文件

数据拆分

UnpredicTable数据集不附带其他数据拆分。

数据集的创建

策划理由

多任务数据的少样本训练已被证明可以提高语言模型在新任务上的少样本学习（FSL）性能，但尚不清楚哪些训练任务能够有效地进行下游任务适应。少样本学习数据集通常需要昂贵的人工策划，从而限制了可用于研究的训练任务的规模和多样性。作为少样本数据的替代来源，我们自动从不同的互联网表格中提取了413,299个任务。我们提供这个作为一个研究资源，以调查训练数据与少样本学习之间的关系。

来源数据

初始数据收集和规范化

我们使用了来自WDC Web表格语料库2015年（WTC）的英语关系子集的互联网表格。WTC数据集的表格是从2015年7月的Common Crawl网络语料库（ http://webdatacommons.org/webtables/2015/EnglishStatistics.html ）中提取的。该数据集包含来自323,160个网域的50,820,165个表格。然后我们将这些表格转换为少样本学习任务。有关数据收集和转换流程的更多细节，请参见我们的出版物。

资源语言制片人是谁？

该数据集是从 WDC Web Table Corpora 提取的。

注释

注释过程

仅对 UnpredicTable-rated-low 、 UnpredicTable-rated-medium 和 UnpredicTable-rated-high 数据子集进行了手动注释以评价任务质量。注释说明的详细说明可以在我们的出版物中找到。

注释者是谁？

注释由助理实验室完成。

个人和敏感信息

数据是从 WDC Web Table Corpora 提取的，该数据提取了 Common Crawl 的表格。我们没有以任何方式对数据进行筛选。因此，我们的数据集中可能包含任何用户身份或其他敏感信息（例如揭示种族或种族起源、性取向、宗教信仰、政治观点或工会成员资格、位置；财务或健康数据；生物识别或遗传数据；政府身份证明形式，例如社会安全号码；犯罪记录等）。

使用数据的注意事项

数据集的社会影响

该数据集旨在作为研究资源，调查训练数据与少样本学习之间的关系。因此，它包含高质量和低质量的数据，以及可能不真实或不合适的多样内容。在进行慎重调查之前，不应将其用于训练将在决策关键或面向用户的情况下部署的模型。

偏见讨论

由于我们的数据集包含从网络抓取的表格，因此也包含许多有害的偏见和文本，如有毒的、种族主义的、性别歧视的和其他有害的偏见和文本。我们没有对我们数据集中的偏见进行任何分析。我们也没有明确地过滤内容。这意味着在我们的数据集上训练的模型可能反映出数据集中存在的有害偏见和有毒文本。

其他已知限制

暂无其他已知限制。

其他信息

数据集策划者

Jun Shern Chan, Michael Pieler, Jonathan Jao, Jérémy Scheurer, Ethan Perez

许可信息

Apache 2.0

引用信息

@misc{chan2022few,
  author = {Chan, Jun Shern and Pieler, Michael and Jao, Jonathan and Scheurer, Jérémy and Perez, Ethan},
  title = {Few-shot Adaptation Works with UnpredicTable Data},
  publisher={arXiv},
  year = {2022},
  url = {https://arxiv.org/abs/2208.01009}
}

作者:

MicPie

数据集大小:

270.28 KB