英文

Muppet: Massive Multi-task Representations with Pre-Finetuning

RoBERTa基础模型

这是RoBERTa基础模型的大规模多任务预精调版本。它在广泛的GLUE、QA任务上改进了roberta-base的性能(详细信息可在论文中找到)。在较小的数据集上取得了显著的增益。

注意:由于兼容性问题,此检查点不包含在预精调过程中使用的分类/机器阅读理解头部,因此在某些数据集上可能会略低于论文中报告的性能。

模型描述

RoBERTa是一个在大规模英语语料库上进行自监督训练的transformers模型。这意味着它仅在原始文本上进行预训练,而没有通过任何方式进行人工标注(这就是为什么它可以使用大量公开可用的数据),它使用一个自动化过程从这些文本中生成输入和标签。

更准确地说,它是通过遮盖语言模型(MLM)目标进行预训练的。它随机遮盖输入中15%的单词,然后将整个遮盖的句子通过模型,并预测被屏蔽的单词。这与传统的递归神经网络(RNN)通常一次看到一个词,或者与类似GPT的自回归模型在内部屏蔽未来记号的方式不同。它使模型能够学习句子的双向表示。

这样,模型学习了英语语言的内部表示,可以用于提取对下游任务有用的特征:如果你有一个标记句子的数据集,可以使用BERT模型生成的特征作为输入来训练标准分类器。

预期用途和限制

您可以使用原始模型进行遮盖语言建模,但它主要用于在下游任务上进行精细调整。请查看您感兴趣的任务的预调整版本。

请注意,此模型主要用于在使用整个句子(可能遮盖)进行决策的任务上进行精细调整,例如序列分类、标记分类或问答。对于文本生成等任务,您应该查看像GPT2这样的模型。

评估结果

当在下游任务上进行精细调整时,该模型的实现以下结果:

GLUE测试结果:

Model MNLI QQP QNLI SST-2 CoLA STS-B MRPC RTE SQuAD
Roberta-base 87.6 91.9 92.8 94.8 63.6 91.2 90.2 78.7 82.6
MUPPET Roberta-base 88.1 91.9 93.3 96.7 - - 91.7 87.8 86.6

BibTeX条目和引用信息

@article{DBLP:journals/corr/abs-2101-11038,
  author    = {Armen Aghajanyan and
               Anchit Gupta and
               Akshat Shrivastava and
               Xilun Chen and
               Luke Zettlemoyer and
               Sonal Gupta},
  title     = {Muppet: Massive Multi-task Representations with Pre-Finetuning},
  journal   = {CoRR},
  volume    = {abs/2101.11038},
  year      = {2021},
  url       = {https://arxiv.org/abs/2101.11038},
  archivePrefix = {arXiv},
  eprint    = {2101.11038},
  timestamp = {Sun, 31 Jan 2021 17:23:50 +0100},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2101-11038.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}