数据集:
MicPie/unpredictable_unique
语言:
en计算机处理:
monolingual大小:
100K<n<1M语言创建人:
found批注创建人:
no-annotation预印本库:
arxiv:2208.01009许可:
apache-2.0UnpredicTable数据集包含格式化为少样本任务的网络表格,用于微调语言模型以提高其少样本性能。
有几个可用的数据集版本:
UnpredicTable-full : 从初始的50M个表格的WTC语料库开始,我们应用我们的表格到任务的过程来生成我们的结果数据集, UnpredicTable-full ,其中包含来自23,744个唯一网站的413,299个任务。
UnpredicTable-unique : 这与 UnpredicTable-full 相同,但是过滤掉每个网站的最多一个任务。 UnpredicTable-unique 包含来自23,744个网站的确切23,744个任务。
UnpredicTable-5k : 该数据集包含全数据集中的5,000个随机表格。
基于手动人为质量评分的UnpredicTable数据子集(请参阅我们的出版物以了解评级的详细信息):
根据原始网站进行的UnpredicTable数据子集(请参阅我们的出版物以获取来源的详细信息):
基于聚类进行的UnpredicTable数据子集(有关聚类细节,请参阅我们的出版物):
由于表格来自于网络,任务和主题的分布非常广泛。我们的数据集的形状非常宽,即我们有数千个任务,而每个任务只有几个示例,而与大多数当前的自然语言处理数据集相比,这些数据集非常深,即有着数十个任务和许多示例。这意味着我们的数据集涵盖了各种潜在任务,例如多项选择、问题回答、表格问题回答、文本分类等。
该数据集的预期用途是通过在我们的数据集上进行微调/预训练来提高少样本性能。
英语
每个任务表示为json文件,并包含多个少样本示例。每个示例是一个包含字段'task'(表示任务)的字典,后跟'input'、'options'和'output'字段。'input'字段包含表格中同一行的多个列元素,而'output'字段是一个目标,表示同一行的单个列。每个任务包含多个此类示例,可以连接为一个少样本任务。在多项选择分类的情况下,'options'字段包含模型需要选择的可能类别。
还有其他的元数据字段,如'pageTitle'、'title'、'outputColName'、'url'、'wdcFile'。
'task':任务标识符
'input':表格中特定行的列元素。
'options':对于多项选择分类,它提供了可供选择的选项。
'output':与输入相同行的目标列元素。
'pageTitle':包含表格的页面标题。
'outputColName':输出列名称
'url':包含表格的网站的URL
'wdcFile':WDC Web Table Corpus文件
UnpredicTable数据集不附带其他数据拆分。
已经证明,在多任务数据集上进行少样本训练可以改善语言模型在新任务上的少样本学习(FSL)性能,但不清楚哪些训练任务可以导致有效的下游任务适应。少样本学习数据集通常需要昂贵的人工整理,限制了可用于研究的训练任务的规模和多样性。作为少样本数据的替代来源,我们自动从多样的网络表格中提取413,299个任务。我们将其作为研究资源提供,以调查训练数据与少样本学习之间的关系。
我们使用WDC Web Table Corpus 2015(WTC)的英语关系子集中的互联网表格。WTC数据集的表格来自于2015年7月的Common Crawl网络语料库( http://webdatacommons.org/webtables/2015/EnglishStatistics.html )。数据集包含来自323,160个网域的50,820,165个表格。然后,我们将这些表格转换为少样本学习任务。有关数据收集和转换流程的更多详细信息,请参阅我们的出版物。
谁是源语言生产者?该数据集从 WDC Web Table Corpora 中提取。
仅针对 UnpredicTable-rated-low 、 UnpredicTable-rated-medium 和 UnpredicTable-rated-high 的数据子集进行了手动注释,以评估任务质量。注释说明的详细说明可以在我们的出版物中找到。
标注者是谁?注释由实验室助手进行。
数据是从 WDC Web Table Corpora 中提取的,而 WDC Web Table Corpora 又从 Common Crawl 中提取表格。我们没有以任何方式过滤数据。因此,我们的数据集中可能包含任何用户身份或其他敏感信息(例如,揭示种族或族裔起源、性取向、宗教信仰、政治观点或工会成员资格、地点;财务或健康数据;生物特征或遗传数据;政府身份证明形式,如社会保障号码;刑事记录等)。
该数据集旨在作为研究资源,以调查训练数据与少样本学习之间的关系。因此,它包含高质量和低质量的数据,以及可能不真实或不适当的多样化内容。没有经过仔细调查,不应将其用于训练将会在决策关键或面向用户的情况下部署使用的模型。
由于我们的数据集包含从网络上爬取的表格,因此它还将包含许多有害的偏见文本,如有毒的、种族主义的、性别歧视的等等。我们没有对我们的数据集中存在的偏见进行任何分析。我们也没有明确地过滤内容。这意味着在我们的数据集上训练的模型可能反映了存在于我们的数据集中的有害偏见和有毒文本。
没有其他已知限制。
Jun Shern Chan,Michael Pieler,Jonathan Jao,Jérémy Scheurer,Ethan Perez
Apache 2.0
@misc{chan2022few, author = {Chan, Jun Shern and Pieler, Michael and Jao, Jonathan and Scheurer, Jérémy and Perez, Ethan}, title = {Few-shot Adaptation Works with UnpredicTable Data}, publisher={arXiv}, year = {2022}, url = {https://arxiv.org/abs/2208.01009} }