数据集:
MicPie/unpredictable_gamefaqs-com
语言:
en计算机处理:
monolingual大小:
100K<n<1M语言创建人:
found批注创建人:
no-annotation预印本库:
arxiv:2208.01009许可:
apache-2.0UnpredicTable数据集由格式为少样本任务的网页表格组成,用于对语言模型进行微调,以提高其少样本性能。
有几个可用的数据集版本:
UnpredicTable-full :从初始的5000万个表格的WTC语料库开始,我们应用表格转任务的过程产生我们的结果数据集 UnpredicTable-full ,其中包括来自23744个唯一网站的413,299个任务。
UnpredicTable-unique :与 UnpredicTable-full 相同,但被过滤为每个网站最多一个任务。 UnpredicTable-unique 包含来自23744个网站的确切的23744个任务。
UnpredicTable-5k :此数据集包含从完整数据集中随机提取的5000个表格。
UnpredicTable数据子集基于手动人为质量评分(有关评分的详细信息请参阅我们的出版物):
基于来源网站的UnpredicTable数据子集:
基于聚类的UnpredicTable数据子集(有关聚类详细信息,请参阅我们的出版物):
由于这些表格来自于网络,因此任务和主题的分布非常广泛。我们的数据集非常广泛,即我们有成千上万个任务,而每个任务只有很少的例子,与大多数当前的自然语言处理数据集非常不同,其非常深入,即有许多例子的任务。这意味着我们的数据集涵盖了广泛的潜在任务范围,例如多项选择、问题回答、表格问题回答、文本分类等。
这个数据集的目的是通过在我们的数据集上进行微调/预训练来提高少样本性能。
英语
每个任务都表示为一个jsonline文件,包含几个少样本示例。每个示例都是一个字典,包含一个“task”字段,用于标识任务,后面是一个“input”、“options”和“output”字段。 “input”字段包含表格中同一行的几个列元素,而“output”字段是一个目标,表示同一行的一个单独列。每个任务包含几个这样的示例,可以将它们连接成几个示例任务。对于多项选择分类,"options"字段包含模型需要选择的可能类别。
还有其他额外的元数据字段,如“pageTitle”、“title”、“outputColName”、“url”和“wdcFile”。
'task': 任务标识符
'input': 表格中特定行的列元素。
'options': 对于多项选择分类,提供可供选择的选项。
'output': 与输入相同行上的目标列元素。
'pageTitle': 包含表格的页面标题。
'outputColName': 输出列名称
'url': 包含表格的网站的url
'wdcFile': WDC网页表格语料文件
UnpredicTable数据集不附带其他数据拆分。
多任务数据集的少样本训练已经证明可以提高语言模型在新任务上的少样本学习(FSL)性能,但是目前尚不清楚哪些训练任务可以有效地适应下游任务。少样本学习数据集通常需要昂贵的人工策划,限制了可用于研究的训练任务的规模和多样性。作为少样本数据的另一个来源,我们自动从不同的互联网表格中提取了413,299个任务。我们将其提供为研究资源,以调查训练数据与少样本学习之间的关系。
我们使用了WDC 2015年Web Table Corpus(WTC)的英语关系子集中的互联网表格。WTC数据集的表格是从2015年7月的Common Crawl网络语料库( http://webdatacommons.org/webtables/2015/EnglishStatistics.html )中提取的。该数据集包含来自323,160个网络域的50,820,165个表格。然后我们将这些表格转换为少样本学习任务。有关数据收集和转换流程的更多详细信息,请参阅我们的出版物。
谁是源语言的生产者?该数据集来自于 WDC Web Table Corpora 。
只对 UnpredicTable-rated-low 、 UnpredicTable-rated-medium 和 UnpredicTable-rated-high 数据子集进行了人工注释,以评估任务质量。注释说明的详细指示可以在我们的出版物中找到。
谁是标注者?注释由实验室助手进行。
数据是从 WDC Web Table Corpora 提取的,该提取表格来自 Common Crawl 。我们没有以任何方式对数据进行过滤。因此,我们的数据集中可能包含任何用户身份或其他敏感信息(例如揭示种族或族裔起源、性取向、宗教信仰、政治观点或工会会员资格、地点;财务或健康数据;生物特征或基因数据;政府识别形式,如社会安全号码;犯罪记录等)。
该数据集是作为研究资源,用于研究训练数据与少样本学习之间的关系。因此,它包含高质量和低质量的数据,以及可能不真实或不适当的各种内容。在没有仔细调查的情况下,不应将其用于训练将部署用于决策关键或面向用户的情况下的模型。
由于我们的数据集包含从网络上爬取的表格,因此它还包含许多有毒、种族主义、性别歧视和其他有害的偏见和文本。我们没有对我们数据集中普遍存在的偏见进行任何分析。我们也没有明确地过滤内容。这意味着在我们的数据集上训练的模型可能会反映出我们数据集中存在的有害偏见和有毒文本。
没有其他已知限制。
Jun Shern Chan,Michael Pieler,Jonathan Jao,Jérémy Scheurer,Ethan Perez
Apache 2.0
@misc{chan2022few, author = {Chan, Jun Shern and Pieler, Michael and Jao, Jonathan and Scheurer, Jérémy and Perez, Ethan}, title = {Few-shot Adaptation Works with UnpredicTable Data}, publisher={arXiv}, year = {2022}, url = {https://arxiv.org/abs/2208.01009} }