模型:
google/tapas-large-finetuned-tabfact
此模型有两个可用版本。最新版本是默认版本,对应于之前的 tapas_tabfact_inter_masklm_large_reset 检查点。该模型在MLM预训练以及作者称之为中间预训练的额外步骤后进行微调,然后再在 TabFact 上进行微调。默认情况下,它使用相对位置嵌入(即在表的每个单元格中重置位置索引)。
可以使用的另一个(非默认)版本是使用绝对位置嵌入:
免责声明:TAPAS发布团队没有为这个模型编写模型卡片,所以这个模型卡片是由Hugging Face团队和贡献者编写的。
TAPAS是一种类似BERT的transformers模型,它以无人监督的方式在大规模英文数据(来自维基百科)上进行预训练。这意味着它只在原始表格和相关文本上进行了预训练,没有任何人类以任何方式对它们进行标注(这就是它可以使用大量公开可用数据的原因),而是使用自动化过程从这些文本中生成输入和标签。更准确地说,它通过两个目标进行预训练:
这样,模型学习到了表格和相关文本中使用的英语的内部表示,可以用于提取对下游任务有用的特征,例如回答关于表格的问题,或确定一个句子是否被表格的内容所证实或驳斥。微调通过在预训练模型之上添加分类头,然后在TabFact上随机初始化分类头和基础模型的联合训练来实现。
您可以使用此模型来分类一个句子是否被表格的内容所支持或驳斥。
有关代码示例,请参阅HuggingFace网站上TAPAS的文档。
文本使用WordPiece进行小写处理和分词,并使用30000个词汇的词汇表。模型的输入形式如下:
[CLS] Sentence [SEP] Flattened table [SEP]
模型在32个Cloud TPU v3核上进行了80000步的微调,最大序列长度为512,批量大小为512。在此设置下,微调大约需要14个小时。使用的优化器是带有学习率2e-5的Adam,并且有0.05的预热比例。有关更多细节,请参阅 paper 。
@misc{herzig2020tapas, title={TAPAS: Weakly Supervised Table Parsing via Pre-training}, author={Jonathan Herzig and Paweł Krzysztof Nowak and Thomas Müller and Francesco Piccinno and Julian Martin Eisenschlos}, year={2020}, eprint={2004.02349}, archivePrefix={arXiv}, primaryClass={cs.IR} }
@misc{eisenschlos2020understanding, title={Understanding tables with intermediate pre-training}, author={Julian Martin Eisenschlos and Syrine Krichene and Thomas Müller}, year={2020}, eprint={2010.00571}, archivePrefix={arXiv}, primaryClass={cs.CL} }
@inproceedings{2019TabFactA, title={TabFact : A Large-scale Dataset for Table-based Fact Verification}, author={Wenhu Chen, Hongmin Wang, Jianshu Chen, Yunkai Zhang, Hong Wang, Shiyang Li, Xiyou Zhou and William Yang Wang}, booktitle = {International Conference on Learning Representations (ICLR)}, address = {Addis Ababa, Ethiopia}, month = {April}, year = {2020} }