模型:
google/tapas-base
该模型有两个可用的版本。最新版本是默认版本,对应于tapas_inter_masklm_base_reset检查点的 original Github repository 。该模型在MLM和作者称之为中间预训练的额外步骤上进行了预训练。默认情况下,它使用相对位置嵌入(即在表的每个单元格中重置位置索引)。
另一个(非默认)可用的版本是具有绝对位置嵌入的版本:
免责声明:发布TAPAS的团队未对该模型编写模型卡片,因此此模型卡片由Hugging Face团队和贡献者编写。
TAPAS是一个类似于BERT的transformers模型,以自监督的方式在维基百科的大语料库上进行预训练。这意味着它仅仅在原始表格和相关文本上进行了预训练,没有以任何方式标记这些数据(这就是为什么它可以使用大量公开可用的数据),而是使用自动化过程从这些文本中生成输入和标签。更具体地说,它通过两个目标进行了预训练:
这样,模型学习了在表格和相关文本中使用的英语的内部表示,然后可以用于提取对下游任务(如回答关于表格的问题或确定一句话是否由表格的内容支持或反驳)有用的特征。通过在预训练模型之上添加一个或多个分类头,在下游任务上联合训练这些随机初始化的分类头与基础模型。
您可以使用原始模型来获取有关表格-问题对的隐藏表示,但它主要用于在下游任务(如问答或序列分类)上进行微调。请查看 model hub 以查找您感兴趣的任务的微调版本。
文本进行小写处理,并使用WordPiece和30000个词汇大小进行分词。模型的输入形式为:
[CLS] Sentence [SEP] Flattened table [SEP]
该模型在32个Cloud TPU v3核心上进行了1000000个步骤的预训练,最大序列长度为512,批量大小为512。在此设置中,仅进行MLM的预训练大约需要3天。此外,该模型还在第二个任务(表格蕴含)上进行了进一步的预训练。有关更多详细信息,请参阅原始的TAPAS paper 和 follow-up paper 。
使用的优化器是Adam,学习率为5e-5,预热比率为0.01。
@misc{herzig2020tapas, title={TAPAS: Weakly Supervised Table Parsing via Pre-training}, author={Jonathan Herzig and Paweł Krzysztof Nowak and Thomas Müller and Francesco Piccinno and Julian Martin Eisenschlos}, year={2020}, eprint={2004.02349}, archivePrefix={arXiv}, primaryClass={cs.IR} }
@misc{eisenschlos2020understanding, title={Understanding tables with intermediate pre-training}, author={Julian Martin Eisenschlos and Syrine Krichene and Thomas Müller}, year={2020}, eprint={2010.00571}, archivePrefix={arXiv}, primaryClass={cs.CL} }