模型:
google/tapas-base-finetuned-tabfact
该模型有两个可用版本。最新版本是默认版本,对应于 original Github repository 的tapas_tabfact_inter_masklm_base_reset检查点。该模型在MLM和作者称之为中间预训练的附加步骤上进行了预训练,然后在 TabFact 上进行了微调。默认情况下,它使用相对位置嵌入(即在表的每个单元格中重置位置索引)。
另一个(非默认)可用版本是具有绝对位置嵌入的版本:
免责声明:TAPAS发布团队并未为该模型撰写模型卡片,因此该模型卡片是由Hugging Face团队和贡献者撰写的。
TAPAS是一种类似BERT的transformers模型,采用自监督方式在英文维基百科的大型语料库上进行预训练。这意味着它仅使用原始表格和相关文本进行预训练,没有人类以任何方式标记它们(这就是为什么它可以使用大量的公开可用数据),采用自动过程从这些文本中生成输入和标签。更准确地说,它通过两个目标进行了预训练:
这样,模型学习了表格和相关文本中使用的英语的内部表示,然后可以用于提取对于回答有关表格的问题或确定是否由表的内容支持或否定的句子的特征。微调是通过在预训练模型之上添加分类头,然后在TabFact上随机初始化该分类头与基础模型一起训练来完成的。
您可以使用此模型来分类一个句子是否由表的内容支持或否定。
有关代码示例,请参阅HuggingFace网站上TAPAS的文档。
文本被小写并使用词片段化(WordPiece)和词汇量大小为30,000进行标记化。模型的输入形式为:
[CLS] Sentence [SEP] Flattened table [SEP]
该模型在32个Cloud TPU v3核上进行了80,000个步骤的微调,最大序列长度为512,批量大小为512。在这种设置下,微调需要大约14小时。使用的优化器是Adam,学习率为2e-5,热身比例为0.05。有关更多细节,请参阅 paper (附录A2)。
@misc{herzig2020tapas, title={TAPAS: Weakly Supervised Table Parsing via Pre-training}, author={Jonathan Herzig and Paweł Krzysztof Nowak and Thomas Müller and Francesco Piccinno and Julian Martin Eisenschlos}, year={2020}, eprint={2004.02349}, archivePrefix={arXiv}, primaryClass={cs.IR} }
@misc{eisenschlos2020understanding, title={Understanding tables with intermediate pre-training}, author={Julian Martin Eisenschlos and Syrine Krichene and Thomas Müller}, year={2020}, eprint={2010.00571}, archivePrefix={arXiv}, primaryClass={cs.CL} }
@inproceedings{2019TabFactA, title={TabFact : A Large-scale Dataset for Table-based Fact Verification}, author={Wenhu Chen, Hongmin Wang, Jianshu Chen, Yunkai Zhang, Hong Wang, Shiyang Li, Xiyou Zhou and William Yang Wang}, booktitle = {International Conference on Learning Representations (ICLR)}, address = {Addis Ababa, Ethiopia}, month = {April}, year = {2020} }