英文

TAPAS基础模型在Tabular事实检查(TabFact)上进行了微调

该模型有两个可用版本。最新版本是默认版本,对应于 original Github repository 的tapas_tabfact_inter_masklm_base_reset检查点。该模型在MLM和作者称之为中间预训练的附加步骤上进行了预训练,然后在 TabFact 上进行了微调。默认情况下,它使用相对位置嵌入(即在表的每个单元格中重置位置索引)。

另一个(非默认)可用版本是具有绝对位置嵌入的版本:

  • no_reset,对应于tapas_tabfact_inter_masklm_base

免责声明:TAPAS发布团队并未为该模型撰写模型卡片,因此该模型卡片是由Hugging Face团队和贡献者撰写的。

模型描述

TAPAS是一种类似BERT的transformers模型,采用自监督方式在英文维基百科的大型语料库上进行预训练。这意味着它仅使用原始表格和相关文本进行预训练,没有人类以任何方式标记它们(这就是为什么它可以使用大量的公开可用数据),采用自动过程从这些文本中生成输入和标签。更准确地说,它通过两个目标进行了预训练:

  • 掩码语言建模(MLM):将(扁平化的)表格和相关上下文输入,模型随机屏蔽输入中15%的单词,然后通过整个(部分屏蔽)序列运行模型。然后,模型必须预测屏蔽的单词。这不同于通常按顺序查看单词的传统递归神经网络(RNN),或者内部屏蔽未来标记的自回归模型(如GPT)。它使模型能够学习表格和相关文本的双向表示。
  • 中间预训练:为了鼓励表格上的数值推理,作者使用合成的成语创建了数百万个平衡的训练示例数据集进行了额外的预训练。在这里,模型必须预测(分类)一个句子是否由表的内容支持或否定。训练示例基于合成语和反事实语句创建。

这样,模型学习了表格和相关文本中使用的英语的内部表示,然后可以用于提取对于回答有关表格的问题或确定是否由表的内容支持或否定的句子的特征。微调是通过在预训练模型之上添加分类头,然后在TabFact上随机初始化该分类头与基础模型一起训练来完成的。

预期用途和限制

您可以使用此模型来分类一个句子是否由表的内容支持或否定。

有关代码示例,请参阅HuggingFace网站上TAPAS的文档。

训练过程

预处理

文本被小写并使用词片段化(WordPiece)和词汇量大小为30,000进行标记化。模型的输入形式为:

[CLS] Sentence [SEP] Flattened table [SEP]

微调

该模型在32个Cloud TPU v3核上进行了80,000个步骤的微调,最大序列长度为512,批量大小为512。在这种设置下,微调需要大约14小时。使用的优化器是Adam,学习率为2e-5,热身比例为0.05。有关更多细节,请参阅 paper (附录A2)。

BibTeX引用和引文信息

@misc{herzig2020tapas,
      title={TAPAS: Weakly Supervised Table Parsing via Pre-training}, 
      author={Jonathan Herzig and Paweł Krzysztof Nowak and Thomas Müller and Francesco Piccinno and Julian Martin Eisenschlos},
      year={2020},
      eprint={2004.02349},
      archivePrefix={arXiv},
      primaryClass={cs.IR}
}
@misc{eisenschlos2020understanding,
      title={Understanding tables with intermediate pre-training}, 
      author={Julian Martin Eisenschlos and Syrine Krichene and Thomas Müller},
      year={2020},
      eprint={2010.00571},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}
@inproceedings{2019TabFactA,
  title={TabFact : A Large-scale Dataset for Table-based Fact Verification},
  author={Wenhu Chen, Hongmin Wang, Jianshu Chen, Yunkai Zhang, Hong Wang, Shiyang Li, Xiyou Zhou and William Yang Wang},
  booktitle = {International Conference on Learning Representations (ICLR)},
  address = {Addis Ababa, Ethiopia},
  month = {April},
  year = {2020}
}