英文

TAPAS mini模型在WikiTable Question (WTQ)上进行微调

该模型有2个版本可供使用。默认版本对应于 original Github repository 中的tapas_wtq_wikisql_sqa_inter_masklm_mini_reset检查点。该模型经过了MLM的预训练以及作者称为中间预训练的附加步骤,并通过 SQA WikiSQL 和最后的 WTQ 进行了链式微调。它使用相对位置嵌入(即在每个表格单元格中重置位置索引)。

可以使用的另一个(非默认)版本是:

  • no_reset,对应于tapas_wtq_wikisql_sqa_inter_masklm_mini(中间预训练,绝对位置嵌入)。

免责声明:发布TAPAS的团队未为此模型编写模型卡片,因此此模型卡片由Hugging Face团队和贡献者编写。

结果

Size Reset Dev Accuracy Link
LARGE noreset 0.5062 1238321
LARGE reset 0.5097 1239321
BASE noreset 0.4525 12310321
BASE reset 0.4638 12311321
MEDIUM noreset 0.4324 12312321
MEDIUM reset 0.4324 12313321
SMALL noreset 0.3681 12314321
SMALL reset 0.3762 12315321
MINI noreset 0.2783 12316321
MINI reset 0.2854 12317321
TINY noreset 0.0823 12318321
TINY reset 0.1039 12319321

模型描述

TAPAS是一个类似BERT的transformers模型,它以自我监督的方式在大量英文数据(来自维基百科)上进行了预训练。这意味着它仅在原始表格和相关文本上进行了预训练,没有以任何方式进行人工标注(这就是它可以使用大量公开可用数据的原因),它使用了一种从这些文本中生成输入和标签的自动处理过程。具体来说,它通过以下两个目标进行了预训练:

  • 屏蔽语言模型(MLM):将(扁平化的)表格和相关上下文作为输入,模型会随机屏蔽输入中15%的单词,然后通过模型运行整个(部分屏蔽)序列。然后模型必须预测屏蔽的单词。这与传统的递归神经网络(RNN)通常看到一个接一个的单词或GPT等自回归模型内部屏蔽未来标记的方式不同。这使得模型能够学习表格和相关文本的双向表示。
  • 中间预训练:为了鼓励表格上的数值推理,作者还通过创建一个平衡的训练样本数据集进行了模型的额外预训练。在这里,模型必须预测(分类)一个句子是否由表格的内容支持或反驳。训练样本是基于合成的以及反事实的陈述创建的。

这样,模型学习了在表格和相关文本中使用的英语的内部表示,然后可以用于提取用于回答关于表格的问题或确定一个句子是否被表格的内容支持或反驳的特征。微调是通过在预训练模型之上添加单元格选择头和聚合头来完成的,然后将这些随机初始化的分类头与SQa、WikiSQL和最后的WTQ的基础模型一起训练。

预期用途和限制

您可以使用此模型回答与表格相关的问题。

有关代码示例,请参阅HuggingFace网站上的TAPAS文档。

训练过程

预处理

将文本转换为小写,并使用WordPiece和30000个词汇大小进行分词。模型的输入形式如下:

[CLS] Question [SEP] Flattened table [SEP]

作者首先使用自动转换脚本将WTQ数据集转换为SQA的格式。

微调

该模型在32个Cloud TPU v3核心上进行了50000步的微调,最大序列长度为512,批量大小为512。在此设置下,微调需要约10小时。所使用的优化器是Adam,学习率为1.93581e-5,预热比例为0.128960。添加了归纳偏差,使模型仅选择同一列的单元格。这反映在TapasConfig的select_one_column参数中。有关更多细节,请参阅 paper (表11和12)。

BibTeX条目和引用信息

@misc{herzig2020tapas,
      title={TAPAS: Weakly Supervised Table Parsing via Pre-training}, 
      author={Jonathan Herzig and Paweł Krzysztof Nowak and Thomas Müller and Francesco Piccinno and Julian Martin Eisenschlos},
      year={2020},
      eprint={2004.02349},
      archivePrefix={arXiv},
      primaryClass={cs.IR}
}
@misc{eisenschlos2020understanding,
      title={Understanding tables with intermediate pre-training}, 
      author={Julian Martin Eisenschlos and Syrine Krichene and Thomas Müller},
      year={2020},
      eprint={2010.00571},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}
@article{DBLP:journals/corr/PasupatL15,
  author    = {Panupong Pasupat and
               Percy Liang},
  title     = {Compositional Semantic Parsing on Semi-Structured Tables},
  journal   = {CoRR},
  volume    = {abs/1508.00305},
  year      = {2015},
  url       = {http://arxiv.org/abs/1508.00305},
  archivePrefix = {arXiv},
  eprint    = {1508.00305},
  timestamp = {Mon, 13 Aug 2018 16:47:37 +0200},
  biburl    = {https://dblp.org/rec/journals/corr/PasupatL15.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}