英文

Muppet: Massive Multi-task Representations with Pre-Finetuning

RoBERTa大型模型

这是RoBERTa大型模型的大规模多任务预训练版本。它在广泛的GLUE、QA任务中改进了roberta-base模型(详细信息可在论文中找到)。在较小的数据集上,其性能提升显著。

注意:由于兼容性问题,此检查点不包含用于预训练的分类/ MRC头,因此某些数据集上的性能可能略低于论文中报告的性能。

模型描述

RoBERTa是一个以自监督方式在大型英语语料库上进行预训练的transformers模型。这意味着它只使用原始文本进行预训练,没有以任何方式对其进行人工标注(这就是为什么它可以使用大量的公开数据),并通过一个自动过程从这些文本中生成输入和标签。

更具体地说,它是通过掩码语言建模(MLM)目标进行预训练的。它会随机屏蔽输入中的15%单词,然后将整个屏蔽的句子输入模型,并预测屏蔽的单词。这与传统的递归神经网络(RNN)通常按顺序看到单词的方式,或者与内部屏蔽未来标记的自回归模型(如GPT)不同。它使模型能够学习句子的双向表示。

这样,模型学习到了一种英语语言的内部表示,可以用来提取对下游任务有用的特征:例如,如果你有一个带有标签的句子数据集,你可以使用BERT模型生成的特征作为输入来训练一个标准分类器。

预期用途和限制

您可以使用原始模型进行掩码语言建模,但它主要用于在下游任务上进行微调。请查看感兴趣的任务的微调版本。

请注意,此模型主要用于在使用整个句子(可能屏蔽)进行决策的任务上进行微调,如序列分类、标记分类或问答。对于文本生成等任务,您应该查看类似GPT2的模型。

评估结果

当在下游任务上进行微调时,该模型实现了以下结果:

Glue测试结果:

Model MNLI QQP QNLI SST-2 CoLA STS-B MRPC RTE SQuAD
Roberta-large 90.2 92.2 94.7 96.4 63.6 91.2 90.9 88.1 88.7
MUPPET Roberta-large 90.8 92.2 94.9 97.4 - - 91.4 92.8 89.4

BibTeX条目和引用信息

@article{DBLP:journals/corr/abs-2101-11038,
  author    = {Armen Aghajanyan and
               Anchit Gupta and
               Akshat Shrivastava and
               Xilun Chen and
               Luke Zettlemoyer and
               Sonal Gupta},
  title     = {Muppet: Massive Multi-task Representations with Pre-Finetuning},
  journal   = {CoRR},
  volume    = {abs/2101.11038},
  year      = {2021},
  url       = {https://arxiv.org/abs/2101.11038},
  archivePrefix = {arXiv},
  eprint    = {2101.11038},
  timestamp = {Sun, 31 Jan 2021 17:23:50 +0100},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2101-11038.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}