英文

TAPAS基础模型

该模型有两个可用的版本。最新版本是默认版本,对应于tapas_inter_masklm_base_reset检查点的 original Github repository 。该模型在MLM和作者称之为中间预训练的额外步骤上进行了预训练。默认情况下,它使用相对位置嵌入(即在表的每个单元格中重置位置索引)。

另一个(非默认)可用的版本是具有绝对位置嵌入的版本:

  • revision="no_reset",对应于tapas_inter_masklm_base

免责声明:发布TAPAS的团队未对该模型编写模型卡片,因此此模型卡片由Hugging Face团队和贡献者编写。

模型描述

TAPAS是一个类似于BERT的transformers模型,以自监督的方式在维基百科的大语料库上进行预训练。这意味着它仅仅在原始表格和相关文本上进行了预训练,没有以任何方式标记这些数据(这就是为什么它可以使用大量公开可用的数据),而是使用自动化过程从这些文本中生成输入和标签。更具体地说,它通过两个目标进行了预训练:

  • 掩码语言建模(MLM):取一个(扁平化的)表格和相关上下文,在输入中随机掩盖15%的单词,然后将整个(部分掩盖的)序列通过模型运行。模型然后必须预测掩盖的单词。这与传统的循环神经网络(RNN)通常逐个查看单词的方式不同,也与内部掩盖未来令牌的自回归模型(如GPT)不同。它使得模型可以学习表格和相关文本的双向表示。
  • 中间预训练:为了鼓励对表格的数字推理,作者还通过创建平衡的百万级句法生成的训练样本数据集来进行了额外的预训练。在这里,模型必须预测(分类)一句话是否由表格的内容支持或反驳。训练样本是基于合成和逆向陈述创建的。

这样,模型学习了在表格和相关文本中使用的英语的内部表示,然后可以用于提取对下游任务(如回答关于表格的问题或确定一句话是否由表格的内容支持或反驳)有用的特征。通过在预训练模型之上添加一个或多个分类头,在下游任务上联合训练这些随机初始化的分类头与基础模型。

预期用途和限制

您可以使用原始模型来获取有关表格-问题对的隐藏表示,但它主要用于在下游任务(如问答或序列分类)上进行微调。请查看 model hub 以查找您感兴趣的任务的微调版本。

训练过程

预处理

文本进行小写处理,并使用WordPiece和30000个词汇大小进行分词。模型的输入形式为:

[CLS] Sentence [SEP] Flattened table [SEP]

预训练

该模型在32个Cloud TPU v3核心上进行了1000000个步骤的预训练,最大序列长度为512,批量大小为512。在此设置中,仅进行MLM的预训练大约需要3天。此外,该模型还在第二个任务(表格蕴含)上进行了进一步的预训练。有关更多详细信息,请参阅原始的TAPAS paper follow-up paper

使用的优化器是Adam,学习率为5e-5,预热比率为0.01。

BibTeX入口和引文信息

@misc{herzig2020tapas,
      title={TAPAS: Weakly Supervised Table Parsing via Pre-training}, 
      author={Jonathan Herzig and Paweł Krzysztof Nowak and Thomas Müller and Francesco Piccinno and Julian Martin Eisenschlos},
      year={2020},
      eprint={2004.02349},
      archivePrefix={arXiv},
      primaryClass={cs.IR}
}
@misc{eisenschlos2020understanding,
      title={Understanding tables with intermediate pre-training}, 
      author={Julian Martin Eisenschlos and Syrine Krichene and Thomas Müller},
      year={2020},
      eprint={2010.00571},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}