英文

TAPAS medium模型在WikiTable Questions(WTQ)上进行微调

该模型有两个可用版本。默认版本对应于 original Github repository 的 tapas_wtq_wikisql_sqa_inter_masklm_medium_reset 检查点。该模型通过MLM进行了预训练并进行了作者所称的中间预训练的额外步骤,然后通过 SQA WikiSQL 和最后的 WTQ 链进行微调。它使用相对位置嵌入(即在表格的每个单元格处重置位置索引)。

另一个(非默认)可使用的版本是:

  • no_reset ,对应于 tapas_wtq_wikisql_sqa_inter_masklm_medium(中间预训练,绝对位置嵌入)。

免责声明:发布TAPAS的团队没有为该模型编写模型卡,因此此模型卡是由Hugging Face团队和贡献者编写的。

结果

Size Reset Dev Accuracy Link
LARGE noreset 0.5062 1238321
LARGE reset 0.5097 1239321
BASE noreset 0.4525 12310321
BASE reset 0.4638 12311321
MEDIUM noreset 0.4324 12312321
MEDIUM reset 0.4324 12313321
SMALL noreset 0.3681 12314321
SMALL reset 0.3762 12315321
MINI noreset 0.2783 12316321
MINI reset 0.2854 12317321
TINY noreset 0.0823 12318321
TINY reset 0.1039 12319321

模型描述

TAPAS是一个类似BERT的transformers模型,通过自监督方法预训练了一个大规模的英文数据集,该数据集来自维基百科。这意味着它只是在原始表格和相关文本上进行了预训练,没有任何人以任何方式对其进行标注(这就是为什么它可以使用大量公开数据)并使用自动生成的过程来从这些文本中生成输入和标签。更具体地说,它通过以下两个目标进行预训练:

  • 掩码语言建模(MLM):将(扁平化的)表格和相关上下文作为输入,模型随机屏蔽15%的单词,然后将整个(部分屏蔽)序列输入模型。模型需要预测被屏蔽的单词。这与通常一次只看到一个单词的传统递归神经网络(RNN)或像GPT这样在内部屏蔽未来令牌的自回归模型不同。它使模型能够学习表格和相关文本的双向表示。
  • 中间预训练:为了鼓励对表格的数值推理,作者还通过创建数百万个在语法上创建的训练示例的平衡数据集来对模型进行了额外的预训练。在这里,模型必须预测(分类)一句话是由表格的内容支持还是反驳。训练示例基于合成句子和反事实语句创建。

这样,模型学习了用于表格和相关文本的英文的内部表示,可以用来提取对回答关于表格的问题有用的特征,或者确定一句话是否由表格的内容支持或反驳。通过在预训练模型上添加单元格选择头和聚合头,然后联合训练这些随机初始化的分类头和基础模型来进行微调。在SQa、WikiSQL和最后是WTQ上进行微调。

预期用途和限制

您可以使用此模型回答与表格相关的问题。

有关代码示例,请参阅HuggingFace网站上TAPAS的文档。

训练过程

预处理

文本被转换为小写,并使用WordPiece进行标记化,词汇大小为30,000。模型的输入的格式为:

[CLS] Question [SEP] Flattened table [SEP]

作者首先使用自动转换脚本将WTQ数据集转换为SQA的格式。

微调(Fine-tuning)

模型在32个Cloud TPU v3核上进行了50,000步的微调,最大序列长度为512,批大小为512。在此设置中,微调大约需要10个小时。使用的优化器是Adam,学习率为1.93581e-5,预热比例为0.128960。添加了归纳偏差,使模型仅选择同一列的单元格。这通过TapasConfig的select_one_column参数体现。详细信息请参阅 paper (表格11和12)。

BibTeX条目和引文信息

@misc{herzig2020tapas,
      title={TAPAS: Weakly Supervised Table Parsing via Pre-training}, 
      author={Jonathan Herzig and Paweł Krzysztof Nowak and Thomas Müller and Francesco Piccinno and Julian Martin Eisenschlos},
      year={2020},
      eprint={2004.02349},
      archivePrefix={arXiv},
      primaryClass={cs.IR}
}
@misc{eisenschlos2020understanding,
      title={Understanding tables with intermediate pre-training}, 
      author={Julian Martin Eisenschlos and Syrine Krichene and Thomas Müller},
      year={2020},
      eprint={2010.00571},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}
@article{DBLP:journals/corr/PasupatL15,
  author    = {Panupong Pasupat and
               Percy Liang},
  title     = {Compositional Semantic Parsing on Semi-Structured Tables},
  journal   = {CoRR},
  volume    = {abs/1508.00305},
  year      = {2015},
  url       = {http://arxiv.org/abs/1508.00305},
  archivePrefix = {arXiv},
  eprint    = {1508.00305},
  timestamp = {Mon, 13 Aug 2018 16:47:37 +0200},
  biburl    = {https://dblp.org/rec/journals/corr/PasupatL15.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}