TAPAS大型模型在Table事实核查（TabFact）上微调

此模型有两个可用版本。最新版本是默认版本，对应于之前的 tapas_tabfact_inter_masklm_large_reset 检查点。该模型在MLM预训练以及作者称之为中间预训练的额外步骤后进行微调，然后再在 TabFact 上进行微调。默认情况下，它使用相对位置嵌入（即在表的每个单元格中重置位置索引）。

可以使用的另一个（非默认）版本是使用绝对位置嵌入：

no_reset，对应于 tapas_tabfact_inter_masklm_large

免责声明：TAPAS发布团队没有为这个模型编写模型卡片，所以这个模型卡片是由Hugging Face团队和贡献者编写的。

模型描述

TAPAS是一种类似BERT的transformers模型，它以无人监督的方式在大规模英文数据（来自维基百科）上进行预训练。这意味着它只在原始表格和相关文本上进行了预训练，没有任何人类以任何方式对它们进行标注（这就是它可以使用大量公开可用数据的原因），而是使用自动化过程从这些文本中生成输入和标签。更准确地说，它通过两个目标进行预训练：

遮盖语言建模（MLM）：给定一个（扁平化的）表格和相关上下文，模型会随机遮盖掉输入中15%的单词，然后将整个（部分遮盖的）序列输入模型。模型随后必须预测被遮盖的单词。这与传统的逐词阅读的循环神经网络（RNN）或内部遮盖未来令牌的自回归模型（如GPT）不同。它使得模型能够学习到表格和相关文本的双向表示。
中间预训练：为了鼓励对表格进行数值推理，作者额外进行了预训练，创建了数百万个句法上创建示例的平衡数据集。在这里，模型必须预测（分类）一个句子是否被表格的内容支持或驳斥。训练示例基于合成的陈述和反事实陈述。

这样，模型学习到了表格和相关文本中使用的英语的内部表示，可以用于提取对下游任务有用的特征，例如回答关于表格的问题，或确定一个句子是否被表格的内容所证实或驳斥。微调通过在预训练模型之上添加分类头，然后在TabFact上随机初始化分类头和基础模型的联合训练来实现。

使用目的和限制

您可以使用此模型来分类一个句子是否被表格的内容所支持或驳斥。

有关代码示例，请参阅HuggingFace网站上TAPAS的文档。

训练过程

预处理

文本使用WordPiece进行小写处理和分词，并使用30000个词汇的词汇表。模型的输入形式如下：

[CLS] Sentence [SEP] Flattened table [SEP]

微调

模型在32个Cloud TPU v3核上进行了80000步的微调，最大序列长度为512，批量大小为512。在此设置下，微调大约需要14个小时。使用的优化器是带有学习率2e-5的Adam，并且有0.05的预热比例。有关更多细节，请参阅 paper 。

BibTeX条目和引用信息

@misc{herzig2020tapas,
      title={TAPAS: Weakly Supervised Table Parsing via Pre-training}, 
      author={Jonathan Herzig and Paweł Krzysztof Nowak and Thomas Müller and Francesco Piccinno and Julian Martin Eisenschlos},
      year={2020},
      eprint={2004.02349},
      archivePrefix={arXiv},
      primaryClass={cs.IR}
}

@misc{eisenschlos2020understanding,
      title={Understanding tables with intermediate pre-training}, 
      author={Julian Martin Eisenschlos and Syrine Krichene and Thomas Müller},
      year={2020},
      eprint={2010.00571},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

@inproceedings{2019TabFactA,
  title={TabFact : A Large-scale Dataset for Table-based Fact Verification},
  author={Wenhu Chen, Hongmin Wang, Jianshu Chen, Yunkai Zhang, Hong Wang, Shiyang Li, Xiyou Zhou and William Yang Wang},
  booktitle = {International Conference on Learning Representations (ICLR)},
  address = {Addis Ababa, Ethiopia},
  month = {April},
  year = {2020}
}

作者:

Google AI

数据集大小:

2.51 GB