模型:

google/tapas-tiny-finetuned-wtq

英文

TAPAS在WikiTable Questions (WTQ)上微调的tiny模型

这个模型有两个可以使用的版本。默认版本对应于 original Github repository 的tapas_wtq_wikisql_sqa_inter_masklm_tiny_reset检查点。该模型在MLM上进行了预训练,并进行了作者称之为中间预训练的额外步骤,然后在 SQA WikiSQL 和最后的 WTQ 上进行了链式微调。它使用相对位置嵌入(即在每个表格单元格处重新设置位置索引)。

另一个(非默认)可以使用的版本是:

  • no_reset ,对应于tapas_wtq_wikisql_sqa_inter_masklm_tiny(中间预训练,绝对位置嵌入)。

免责声明:发布TAPAS的团队没有为该模型编写模型卡片,因此此模型卡片由Hugging Face团队和贡献者编写。

结果

Size Reset Dev Accuracy Link
LARGE noreset 0.5062 1238321
LARGE reset 0.5097 1239321
BASE noreset 0.4525 12310321
BASE reset 0.4638 12311321
MEDIUM noreset 0.4324 12312321
MEDIUM reset 0.4324 12313321
SMALL noreset 0.3681 12314321
SMALL reset 0.3762 12315321
MINI noreset 0.2783 12316321
MINI reset 0.2854 12317321
TINY noreset 0.0823 12318321
TINY reset 0.1039 12319321

模型描述

TAPAS是一种类似BERT的transformers模型,以自监督方式在大量英文数据(来自维基百科)上进行预训练。这意味着它仅通过使用公开可用数据进行预训练,而无需以任何方式人为标记它们(这就是为什么它可以使用大量公开可用数据)并使用自动化过程从这些文本中生成输入和标签。更准确地说,它以两个目标进行了预训练:

  • 掩蔽语言建模(MLM):将(展平的)表格和相关上下文作为输入,模型随机屏蔽输入中15%的单词,然后将整个(部分屏蔽的)序列输入模型。然后模型必须预测被屏蔽的单词。这与传统的递归神经网络(RNN)不同,传统RNN通常按顺序查看单词,或者与GPT等自回归模型内部屏蔽未来标记。它使模型能够学习表格和相关文本的双向表示。
  • 中间预训练:为了鼓励在表格上进行数值推理,作者另外对模型进行了预训练,创建了数百万个句法上创建的训练样例的平衡数据集。在这里,模型必须预测(分类)表格的内容是否支持或反驳一个句子。训练样例基于合成的语句以及反事实的语句。

这样,模型学习了在表格和相关文本中用到的英语的内在表示,然后可以用于提取对于下游任务(如回答关于表格的问题,或确定句子是否被表格的内容蕴含或反驳)有用的特征。通过在预训练模型之上添加一个单元选择头和聚合头,然后联合训练这些随机初始化的分类头和基础模型,完成了微调的工作,最终在SQa、WikiSQL和WTQ上进行。

预期用途和限制

您可以使用此模型来回答与表格相关的问题。

有关代码示例,请参阅HuggingFace网站上的TAPAS文档。

训练流程

预处理

文本使用WordPiece进行小写处理和分词,使用30000个词汇大小。模型的输入形式如下:

[CLS] Question [SEP] Flattened table [SEP]

作者首先使用自动转换脚本将WTQ数据集转换为SQA的格式。

微调

该模型在32个Cloud TPU v3核心上进行了50000个步骤的微调,最大序列长度为512,批大小为512。在此设置中,微调大约需要10个小时。所使用的优化器是Adam,学习率为1.93581e-5,预热比为0.128960。为模型添加归纳偏置,使其仅选择同一列的单元格。这通过TapasConfig的select_one_column参数反映出来。有关更多详细信息,请参见 paper (表11和表12)。

BibTeX条目和引文信息

@misc{herzig2020tapas,
      title={TAPAS: Weakly Supervised Table Parsing via Pre-training}, 
      author={Jonathan Herzig and Paweł Krzysztof Nowak and Thomas Müller and Francesco Piccinno and Julian Martin Eisenschlos},
      year={2020},
      eprint={2004.02349},
      archivePrefix={arXiv},
      primaryClass={cs.IR}
}
@misc{eisenschlos2020understanding,
      title={Understanding tables with intermediate pre-training}, 
      author={Julian Martin Eisenschlos and Syrine Krichene and Thomas Müller},
      year={2020},
      eprint={2010.00571},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}
@article{DBLP:journals/corr/PasupatL15,
  author    = {Panupong Pasupat and
               Percy Liang},
  title     = {Compositional Semantic Parsing on Semi-Structured Tables},
  journal   = {CoRR},
  volume    = {abs/1508.00305},
  year      = {2015},
  url       = {http://arxiv.org/abs/1508.00305},
  archivePrefix = {arXiv},
  eprint    = {1508.00305},
  timestamp = {Mon, 13 Aug 2018 16:47:37 +0200},
  biburl    = {https://dblp.org/rec/journals/corr/PasupatL15.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}