英文

TAPAS 在 WikiTable Questions (WTQ) 上进行微调的大型模型

这个模型有两个版本可供使用。默认版本对应于 original Github repository 的 tapas_wtq_wikisql_sqa_inter_masklm_large_reset checkpoint。该模型先在 MLM 上进行了预训练,然后进行了作者称之为 intermediate pre-training的额外步骤,最后在 SQA WikiSQL 和最终的 WTQ 上进行了微调。它使用了相对位置嵌入(即在表的每个单元格处重新设置位置索引)。

另一个可用的(非默认)版本是:

  • no_reset ,对应于 tapas_wtq_wikisql_sqa_inter_masklm_large(中间预训练,绝对位置嵌入)。

声明:发布 TAPAS 的团队没有为该模型编写模型卡片,因此此模型卡片是由Hugging Face团队和贡献者编写的。

结果

Size Reset Dev Accuracy Link
LARGE noreset 0.5062 1238321
LARGE reset 0.5097 1239321
BASE noreset 0.4525 12310321
BASE reset 0.4638 12311321
MEDIUM noreset 0.4324 12312321
MEDIUM reset 0.4324 12313321
SMALL noreset 0.3681 12314321
SMALL reset 0.3762 12315321
MINI noreset 0.2783 12316321
MINI reset 0.2854 12317321
TINY noreset 0.0823 12318321
TINY reset 0.1039 12319321

模型描述

TAPAS 是一个类似 BERT 的 transformers 模型,在自监督方式下对来自维基百科的大量英文数据进行了预训练。这意味着它仅在原始表格和相关文本上进行了预训练,没有以任何方式进行人工标注(这就是为什么它可以使用大量公开可用的数据),而是使用自动生成的过程从这些文本中生成输入和标签。 更具体地说,它采用了两个目标进行预训练:

  • 掩蔽语言建模(MLM):接收一个(扁平化的)表格和相关上下文,随机遮蔽输入中15%的单词,然后将整个(部分遮蔽的)序列通过模型运行。然后模型必须预测被遮蔽的单词。这与通常一次只看到一个单词的传统递归神经网络(RNN)或像GPT这样在内部遮蔽未来令牌的自回归模型不同。它使模型可以学习表格和相关文本的双向表示。
  • 中间预训练:为了鼓励对表格进行数值推理,作者另外使用数百万个句法创建的训练示例创建了一个平衡的数据集进行模型的预训练。在这里,模型必须预测(分类)一句话是否被表的内容支持或反驳。训练示例基于综合和逆事实陈述创建。

这样,模型学习了一个用于表格和相关文本的英语的内部表示,然后可以用于提取对回答关于表格的问题有用的特征,或确定一个句子是否被表的内容支持或反驳。微调是通过在预训练模型之上添加单元格选择头和聚合头,并与基模型一起随机初始化这些分类头来实现的,然后将它们与 SQa、WikiSQL 和最后的 WTQ 一起联合进行训练。

预期的用途和限制

您可以使用此模型来回答与表格相关的问题。

有关代码示例,请参阅 Hugging Face 网站上的 TAPAS 文档。

训练过程

预处理

文本以小写形式进行标记化,并使用WordPiece和30000的词汇大小进行标记化。模型的输入形式如下:

[CLS] Question [SEP] Flattened table [SEP]

作者首先使用自动转换脚本将 WTQ 数据集转换为SQA的格式。

微调

模型在32个 Cloud TPU v3 核上进行了微调,共进行了50000个步骤,最大序列长度为512,批量大小为512。在此设置中,微调大约需要10个小时。所使用的优化器是Adam,学习率为1.93581e-5,热身率为0.128960。还添加了归纳偏差,使模型仅选择同一列的单元格。这反映在 TapasConfig 的 select_one_column 参数中。有关详细信息,请参见 paper (表11和12)。

BibTeX条目和引用信息

@misc{herzig2020tapas,
      title={TAPAS: Weakly Supervised Table Parsing via Pre-training}, 
      author={Jonathan Herzig and Paweł Krzysztof Nowak and Thomas Müller and Francesco Piccinno and Julian Martin Eisenschlos},
      year={2020},
      eprint={2004.02349},
      archivePrefix={arXiv},
      primaryClass={cs.IR}
}
@misc{eisenschlos2020understanding,
      title={Understanding tables with intermediate pre-training}, 
      author={Julian Martin Eisenschlos and Syrine Krichene and Thomas Müller},
      year={2020},
      eprint={2010.00571},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}
@article{DBLP:journals/corr/PasupatL15,
  author    = {Panupong Pasupat and
               Percy Liang},
  title     = {Compositional Semantic Parsing on Semi-Structured Tables},
  journal   = {CoRR},
  volume    = {abs/1508.00305},
  year      = {2015},
  url       = {http://arxiv.org/abs/1508.00305},
  archivePrefix = {arXiv},
  eprint    = {1508.00305},
  timestamp = {Mon, 13 Aug 2018 16:47:37 +0200},
  biburl    = {https://dblp.org/rec/journals/corr/PasupatL15.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}