模型:

lysandre/tapas-temporary-repo

英文

TAPAS基础模型在序列问答(SQA)上的微调

这个模型有4个版本可供使用。最新的版本是默认版本,对应于 original Github repository 的tapas_sqa_inter_masklm_base_reset检查点。该模型在MLM上进行了预训练,并进行了作者称之为中间预训练的额外步骤,然后在 SQA 上进行了微调。默认情况下,它使用相对位置嵌入(即在表的每个单元格中重置位置索引)。

可以使用的其他(非默认)版本是:

  • revision="v3",对应于tapas_sqa_inter_masklm_base(中间预训练,绝对位置嵌入)
  • revision="V2",对应于tapas_sqa_masklm_base_reset(没有中间预训练,相对位置嵌入)
  • revision="v1",对应于tapas_sqa_masklm_base(没有中间预训练,绝对位置嵌入)

声明:发布TAPAS的团队没有为此模型撰写模型卡片,因此此模型卡片由Hugging Face团队和贡献者撰写。

模型描述

TAPAS是一个类似BERT的transformers模型,是在自监督的方式下预训练的,使用了来自维基百科的大型英文数据语料库。这意味着它只在原始表格和相关文本上进行了预训练,没有以任何方式人工标记它们(这就是为什么它可以使用大量公开可用的数据),而是使用自动生成的过程从这些文本中生成输入和标签。更准确地说,它通过两个目标进行了预训练:

  • 遮盖语言建模(MLM):将一个(扁平化的)表格和相关上下文置入模型中,模型会随机遮盖输入中15%的单词,然后在整个(部分遮盖)序列上运行。模型然后必须预测被遮盖的单词。这与传统的递归神经网络(RNNs)通常依次看到单词的方式不同,也与内部遮盖未来标记的自回归模型(如GPT)不同。这使得模型能够学习表格和相关文本的双向表示。
  • 中间预训练:为了促进对表格的数值推理,作者还通过创建平衡的训练示例数据集来对模型进行额外预训练。在此预训练中,模型必须预测(分类)一个句子是否由表格的内容支持或拒绝。训练示例基于合成语句和反事实语句。

这样,模型学习了用于表格和相关文本的内部表示,然后可以用于提取对于回答关于表格的问题或确定一个句子是否被表格的内容支持或拒绝等下游任务有用的特征。微调是通过在预训练模型之上添加单元格选择头部,然后与基础模型一起训练这个随机初始化的分类头部来完成的。

预期的用途和限制

您可以将该模型用于在对话环境中回答与表格相关的问题。

有关代码示例,请参考HuggingFace网站上关于TAPAS的文档。

训练过程

预处理

文本转换为小写,并使用WordPiece和词汇大小为30,000进行标记化。模型的输入形式如下:

[CLS] Question [SEP] Flattened table [SEP]

微调

该模型使用32个Cloud TPU v3核心进行了200,000步的微调,最大序列长度为512,批次大小为128。在这个设置中,微调大约需要20小时。使用的优化器是学习率为1.25e-5的Adam,并具有0.2的预热比例。还添加了一个归纳偏差,使得模型只选择同一列的单元格。这可以通过TapasConfig的select_one_column参数来体现。请参阅 original paper 的表12。

BibTeX条目和引文信息

@misc{herzig2020tapas,
      title={TAPAS: Weakly Supervised Table Parsing via Pre-training}, 
      author={Jonathan Herzig and Paweł Krzysztof Nowak and Thomas Müller and Francesco Piccinno and Julian Martin Eisenschlos},
      year={2020},
      eprint={2004.02349},
      archivePrefix={arXiv},
      primaryClass={cs.IR}
}
@misc{eisenschlos2020understanding,
      title={Understanding tables with intermediate pre-training}, 
      author={Julian Martin Eisenschlos and Syrine Krichene and Thomas Müller},
      year={2020},
      eprint={2010.00571},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}
@InProceedings{iyyer2017search-based,
author = {Iyyer, Mohit and Yih, Scott Wen-tau and Chang, Ming-Wei},
title = {Search-based Neural Structured Learning for Sequential Question Answering},
booktitle = {Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics},
year = {2017},
month = {July},
abstract = {Recent work in semantic parsing for question answering has focused on long and complicated questions, many of which would seem unnatural if asked in a normal conversation between two humans. In an effort to explore a conversational QA setting, we present a more realistic task: answering sequences of simple but inter-related questions. We collect a dataset of 6,066 question sequences that inquire about semi-structured tables from Wikipedia, with 17,553 question-answer pairs in total. To solve this sequential question answering task, we propose a novel dynamic neural semantic parsing framework trained using a weakly supervised reward-guided search. Our model effectively leverages the sequential context to outperform state-of-the-art QA systems that are designed to answer highly complex questions.},
publisher = {Association for Computational Linguistics},
url = {https://www.microsoft.com/en-us/research/publication/search-based-neural-structured-learning-sequential-question-answering/},
}