模型:

google/tapas-small-finetuned-wikisql-supervised

英文

TAPAS小型模型在WikiSQL上的微调(以有监督方式)

此模型有两个版本可供使用。默认版本对应于 original Github repository 中的tapas_wikisql_sqa_inter_masklm_small_reset检查点。该模型在MLM上进行了预训练,并进行了作者称为中间预训练的额外步骤,然后通过 SQA WikiSQL 以链式进行微调。它使用相对位置嵌入(即在每个表格单元格中重置位置索引)。

另一个(非默认)可用的版本是:

  • no_reset,对应于tapas_wikisql_sqa_inter_masklm_small(中间预训练,绝对位置嵌入)。

免责声明:发布TAPAS的团队没有为这个模型编写模型卡片,所以这个模型卡片是由Hugging Face团队和贡献者编写的。

模型描述

TAPAS是一种类似BERT的transformers模型,在大规模英文数据(来自维基百科)上以自监督方式进行预训练。这意味着它仅在未经人工标注的原始表格和相关文本上进行了预训练,没有以任何方式人工标注它们(这也是为什么它可以使用大量可用的公共数据),并使用自动化过程从这些文本中生成输入和标签。更准确地说,它以两个目标进行了预训练:

  • 掩码语言建模(MLM):接受一个(扁平的)表格和相关上下文,模型会随机掩盖输入中15%的单词,然后通过整个(部分掩盖的)序列运行模型。然后,模型必须预测掩盖的单词。这与通常逐个查看单词的传统递归神经网络(RNN)或内部掩盖未来标记的类似GPT的自回归模型不同。它使模型能够学习表格和相关文本的双向表示。
  • 中间预训练:为了鼓励表格上的数值推理,作者额外地对模型进行了预训练,创建了数百万个句法生成训练示例的平衡数据集。在这里,模型必须预测(分类)句子是否由表格的内容支持或否定。训练示例是基于合成和反事实语句创建的。

这样,模型学习了用于表格和相关文本的英语的内部表示,然后可以用于提取用于下游任务的有用特征,如回答关于表格的问题,或确定一个句子是否由表格的内容支持或否定。微调是通过在预训练模型之上添加单元格选择头和聚合头,然后将这些随机初始化的分类头与基本模型一起进行联合训练,在SQA和WikiSQL上进行的。

预期用途和限制

您可以使用此模型来回答与表格相关的问题。

有关代码示例,请参阅HuggingFace网站上有关TAPAS的文档。

训练过程

预处理

文本转换为小写,并使用WordPiece进行分词,词汇表大小为30,000。模型的输入采用以下形式:

[CLS] Question [SEP] Flattened table [SEP]

作者首先使用自动转换脚本将WikiSQL数据集转换为SQA格式。

微调

该模型在32个Cloud TPU v3核上进行了50,000个步骤的微调,最大序列长度为512,批量大小为512。在此设置中,微调大约需要10小时。使用的优化器是Adam,学习率为6.17164e-5,预热比率为0.1424。有关更多细节,请参阅 paper (表11和12)。

BibTeX条目和引用信息

@misc{herzig2020tapas,
      title={TAPAS: Weakly Supervised Table Parsing via Pre-training}, 
      author={Jonathan Herzig and Paweł Krzysztof Nowak and Thomas Müller and Francesco Piccinno and Julian Martin Eisenschlos},
      year={2020},
      eprint={2004.02349},
      archivePrefix={arXiv},
      primaryClass={cs.IR}
}
@misc{eisenschlos2020understanding,
      title={Understanding tables with intermediate pre-training}, 
      author={Julian Martin Eisenschlos and Syrine Krichene and Thomas Müller},
      year={2020},
      eprint={2010.00571},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}
@article{DBLP:journals/corr/abs-1709-00103,
  author    = {Victor Zhong and
               Caiming Xiong and
               Richard Socher},
  title     = {Seq2SQL: Generating Structured Queries from Natural Language using
               Reinforcement Learning},
  journal   = {CoRR},
  volume    = {abs/1709.00103},
  year      = {2017},
  url       = {http://arxiv.org/abs/1709.00103},
  archivePrefix = {arXiv},
  eprint    = {1709.00103},
  timestamp = {Mon, 13 Aug 2018 16:48:41 +0200},
  biburl    = {https://dblp.org/rec/journals/corr/abs-1709-00103.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}