数据集:
MicPie/unpredictable_cluster29
许可:
apache-2.0预印本库:
arxiv:2208.01009批注创建人:
no-annotation语言创建人:
found大小:
100K<n<1M计算机处理:
monolingual语言:
enUnpredicTable数据集由格式化为Few-shot任务的网页表格组成,用于微调语言模型以提高它们的Few-shot性能。
提供了几个数据集版本:
UnpredicTable-full :从初始的包含50M个表格的WTC语料库开始,我们应用表格到任务的步骤生成我们的结果数据集 UnpredicTable-full ,该数据集包含来自23,744个唯一网站的413,299个任务。
UnpredicTable-unique :与 UnpredicTable-full 相同,但经过筛选,每个网站最多只有一个任务。 UnpredicTable-unique 正好包含来自23,744个网站的23,744个任务。
UnpredicTable-5k :此数据集包含从完整数据集中随机抽取的5,000个表格。
根据手动人工质量评级的UnpredicTable数据子集(有关评级的详细信息,请参阅我们的出版物):
根据来源网站的UnpredicTable数据子集:
根据聚类的UnpredicTable数据子集(有关聚类详细信息,请参阅我们的出版物):
由于这些表格来自网络,任务和主题的分布非常广泛。我们的数据集的形状非常宽,即我们有成千上万个任务,而每个任务只有很少的示例,而与大多数当前的NLP数据集相比,它们非常深,即有几十个任务和许多示例。这意味着我们的数据集涵盖了一系列潜在任务,例如多项选择,问题回答,表格问题回答,文本分类等。
此数据集的预期用途是通过对我们的数据集进行微调/预训练来提高Few-shot性能。
英语
每个任务表示为jsonline文件,由多个Few-shot示例组成。每个示例是一个包含字段'task'的字典,用于标识任务,然后是字段'input','options'和'output'。'input'字段包含表中同一行的多个列元素,而'output'字段是一个目标,表示同一行的单个列。每个任务包含多个这样的示例,可以连接为Few-shot任务。在多项选择分类的情况下,'options'字段包含模型需要选择的可能类别。
还有其他元数据字段,例如'pageTitle','title','outputColName','url','wdcFile'。
'task':任务标识符
'input':表中特定行的列元素。
'options':对于多项选择分类,它提供选择的选项。
'output':与输入相同行的目标列元素。
'pageTitle':包含表格的页面的标题。
'outputColName':输出列名称
'url':包含表格的网站的URL
'wdcFile':WDC Web表格语料库文件
UnpredicTable数据集没有附带其他数据拆分。
对多任务数据集进行Few-shot训练已经证明可以提高语言模型在新任务上的Few-shot学习(FSL)性能,但不清楚哪些训练任务能够实现有效的下游任务调适。Few-shot学习数据集通常需要进行昂贵的人工策划,限制了可用于研究的训练任务的规模和多样性。作为Few-shot数据的替代来源,我们自动从各种互联网表格中提取了413,299个任务。我们提供此数据作为研究资源,以调查训练数据与Few-shot学习之间的关系。
我们使用WDC Web表格语料库2015年英语关系子集中的互联网表格。WTC数据集的表格来自于2015年7月的Common Crawl网络语料库( http://webdatacommons.org/webtables/2015/EnglishStatistics.html )。该数据集包含来自323,160个网页域的50,820,165个表格。然后,我们将这些表格转换为Few-shot学习任务。有关数据收集和转换管道的更多详细信息,请参阅我们的出版物。
源语言制造者是谁?该数据集是从 WDC Web Table Corpora 提取的。
仅对 UnpredicTable-rated-low , UnpredicTable-rated-medium 和 UnpredicTable-rated-high 数据子集进行了人工注释,以评定任务质量。有关注释指南的详细说明,请参阅我们的出版物。
注释者是谁?注释由助理实验室执行。
数据是从 WDC Web Table Corpora 提取的, Common Crawl 从该数据中提取了表格。我们没有以任何方式过滤数据。因此,我们的数据集中可能包含任何用户身份或其他敏感信息(例如,显示种族或民族起源,性取向,宗教信仰,政治观点或工会会员资格,位置的数据;资金或健康数据;生物特征或基因数据;政府识别形式,如社会保障号码;刑事案件历史记录等)。
此数据集旨在作为研究资源,以调查训练数据与Few-shot学习之间的关系。因此,它包含高质量和低质量的数据,以及可能不真实或不合适的多样内容。在没有进行认真调查的情况下,不应将其用于用于决策关键或面向用户的情况下部署的模型的训练。
由于我们的数据集包含从网络上抓取的表格,因此它还包含许多有害的偏见和文本,如有毒、种族主义、性别歧视等。我们没有对我们数据集中存在的偏见进行任何分析。我们也没有明确地过滤内容。这意味着在我们的数据集上训练的模型可能反映了我们数据集中存在的有害偏见和有毒文本。
没有其他已知限制。
Jun Shern Chan、Michael Pieler、Jonathan Jao、Jérémy Scheurer、Ethan Perez
Apache 2.0
@misc{chan2022few, author = {Chan, Jun Shern and Pieler, Michael and Jao, Jonathan and Scheurer, Jérémy and Perez, Ethan}, title = {Few-shot Adaptation Works with UnpredicTable Data}, publisher={arXiv}, year = {2022}, url = {https://arxiv.org/abs/2208.01009} }