英文

TAPAS大型模型在Table事实核查(TabFact)上微调

此模型有两个可用版本。最新版本是默认版本,对应于之前的 tapas_tabfact_inter_masklm_large_reset 检查点。该模型在MLM预训练以及作者称之为中间预训练的额外步骤后进行微调,然后再在 TabFact 上进行微调。默认情况下,它使用相对位置嵌入(即在表的每个单元格中重置位置索引)。

可以使用的另一个(非默认)版本是使用绝对位置嵌入:

  • no_reset,对应于 tapas_tabfact_inter_masklm_large

免责声明:TAPAS发布团队没有为这个模型编写模型卡片,所以这个模型卡片是由Hugging Face团队和贡献者编写的。

模型描述

TAPAS是一种类似BERT的transformers模型,它以无人监督的方式在大规模英文数据(来自维基百科)上进行预训练。这意味着它只在原始表格和相关文本上进行了预训练,没有任何人类以任何方式对它们进行标注(这就是它可以使用大量公开可用数据的原因),而是使用自动化过程从这些文本中生成输入和标签。更准确地说,它通过两个目标进行预训练:

  • 遮盖语言建模(MLM):给定一个(扁平化的)表格和相关上下文,模型会随机遮盖掉输入中15%的单词,然后将整个(部分遮盖的)序列输入模型。模型随后必须预测被遮盖的单词。这与传统的逐词阅读的循环神经网络(RNN)或内部遮盖未来令牌的自回归模型(如GPT)不同。它使得模型能够学习到表格和相关文本的双向表示。
  • 中间预训练:为了鼓励对表格进行数值推理,作者额外进行了预训练,创建了数百万个句法上创建示例的平衡数据集。在这里,模型必须预测(分类)一个句子是否被表格的内容支持或驳斥。训练示例基于合成的陈述和反事实陈述。

这样,模型学习到了表格和相关文本中使用的英语的内部表示,可以用于提取对下游任务有用的特征,例如回答关于表格的问题,或确定一个句子是否被表格的内容所证实或驳斥。微调通过在预训练模型之上添加分类头,然后在TabFact上随机初始化分类头和基础模型的联合训练来实现。

使用目的和限制

您可以使用此模型来分类一个句子是否被表格的内容所支持或驳斥。

有关代码示例,请参阅HuggingFace网站上TAPAS的文档。

训练过程

预处理

文本使用WordPiece进行小写处理和分词,并使用30000个词汇的词汇表。模型的输入形式如下:

[CLS] Sentence [SEP] Flattened table [SEP]

微调

模型在32个Cloud TPU v3核上进行了80000步的微调,最大序列长度为512,批量大小为512。在此设置下,微调大约需要14个小时。使用的优化器是带有学习率2e-5的Adam,并且有0.05的预热比例。有关更多细节,请参阅 paper

BibTeX条目和引用信息

@misc{herzig2020tapas,
      title={TAPAS: Weakly Supervised Table Parsing via Pre-training}, 
      author={Jonathan Herzig and Paweł Krzysztof Nowak and Thomas Müller and Francesco Piccinno and Julian Martin Eisenschlos},
      year={2020},
      eprint={2004.02349},
      archivePrefix={arXiv},
      primaryClass={cs.IR}
}
@misc{eisenschlos2020understanding,
      title={Understanding tables with intermediate pre-training}, 
      author={Julian Martin Eisenschlos and Syrine Krichene and Thomas Müller},
      year={2020},
      eprint={2010.00571},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}
@inproceedings{2019TabFactA,
  title={TabFact : A Large-scale Dataset for Table-based Fact Verification},
  author={Wenhu Chen, Hongmin Wang, Jianshu Chen, Yunkai Zhang, Hong Wang, Shiyang Li, Xiyou Zhou and William Yang Wang},
  booktitle = {International Conference on Learning Representations (ICLR)},
  address = {Addis Ababa, Ethiopia},
  month = {April},
  year = {2020}
}