TAPAS大型模型在WikiSQL上进行了微调（以监督方式）

这个模型有两个版本可供使用。默认版本对应于 original Github repository 的tapas_wikisql_sqa_inter_masklm_large_reset检查点。此模型在MLM和作者称之为中间预训练的附加步骤上进行了预训练，然后在 SQA 和 WikiSQL 上进行了链式微调。它使用相对位置嵌入（即在表的每个单元格中重置位置索引）。

可以使用的另一个（非默认）版本是：

no_reset，对应于tapas_wikisql_sqa_inter_masklm_large（中间预训练，绝对位置嵌入）。

声明：发布TAPAS的团队没有为该模型编写模型卡片，因此该模型卡片是由Hugging Face团队和贡献者撰写的。

模型描述

TAPAS是一个类似BERT的transformers模型，以自监督的方式在大量英文数据（来自维基百科）上进行预训练。这意味着它仅在原始表格和相关文本上进行了预训练，没有以任何方式对它们进行人工标记（这就是它可以使用许多公开可用的数据的原因），而是使用自动过程从这些文本中生成输入和标签。更确切地说，它通过两个目标进行了预训练：

掩码语言建模（MLM）：将（展平的）表格和相关上下文随机掩盖输入中15％的单词，然后将整个（部分掩盖的）序列通过模型。然后，模型必须预测掩盖的单词。这与传统循环神经网络（RNN）通常逐个看到单词的方式不同，也与内部掩盖未来令牌的自回归模型（如GPT）不同。它使模型能够学习表格和相关文本的双向表示。
中间预训练：为了鼓励在表格上进行数值推理，作者还通过创建平衡的数以百万计的句法创建的训练示例数据集来进行了模型的额外预训练。在这里，模型必须预测（分类）一个句子是由表格的内容支持还是反驳。培训示例是基于合成和反事实语句创建的。

通过这种方式，模型学习了用于表格和相关文本中的英语语言的内部表示，然后可以用于提取对回答有关表格的问题或确定句子是否由表格的内容支持或反驳有用的特征。通过在SQA和WikiSQL上在预训练模型之上添加单元格选择头和聚合头，然后联合训练这些随机初始化的分类头和基础模型进行微调。

预期用途和限制

您可以使用此模型来回答与表格相关的问题。

有关代码示例，请参阅HuggingFace网站上TAPAS的文档。

训练过程

预处理

将文本转换为小写，并使用WordPiece和30000个词汇大小进行标记化。模型的输入形式如下：

[CLS] Question [SEP] Flattened table [SEP]

作者确实使用自动转换脚本，将WikiSQL数据集转换为SQA格式。

微调

该模型在32个Cloud TPU v3核心上进行了50,000步的微调，最大序列长度为512，批量大小为512。在此设置中，微调需要约10小时。使用的优化器是学习率为6.17164e-5的Adam，并且有一个0.1424的热身比率。有关更多详细信息，请参见 paper （表11和12）。

BibTeX条目和引用信息

@misc{herzig2020tapas,
      title={TAPAS: Weakly Supervised Table Parsing via Pre-training}, 
      author={Jonathan Herzig and Paweł Krzysztof Nowak and Thomas Müller and Francesco Piccinno and Julian Martin Eisenschlos},
      year={2020},
      eprint={2004.02349},
      archivePrefix={arXiv},
      primaryClass={cs.IR}
}

@misc{eisenschlos2020understanding,
      title={Understanding tables with intermediate pre-training}, 
      author={Julian Martin Eisenschlos and Syrine Krichene and Thomas Müller},
      year={2020},
      eprint={2010.00571},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

@article{DBLP:journals/corr/abs-1709-00103,
  author    = {Victor Zhong and
               Caiming Xiong and
               Richard Socher},
  title     = {Seq2SQL: Generating Structured Queries from Natural Language using
               Reinforcement Learning},
  journal   = {CoRR},
  volume    = {abs/1709.00103},
  year      = {2017},
  url       = {http://arxiv.org/abs/1709.00103},
  archivePrefix = {arXiv},
  eprint    = {1709.00103},
  timestamp = {Mon, 13 Aug 2018 16:48:41 +0200},
  biburl    = {https://dblp.org/rec/journals/corr/abs-1709-00103.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

作者:

Google AI

数据集大小:

2.51 GB