模型:
facebook/muppet-roberta-large
这是RoBERTa大型模型的大规模多任务预训练版本。它在广泛的GLUE、QA任务中改进了roberta-base模型(详细信息可在论文中找到)。在较小的数据集上,其性能提升显著。
注意:由于兼容性问题,此检查点不包含用于预训练的分类/ MRC头,因此某些数据集上的性能可能略低于论文中报告的性能。
RoBERTa是一个以自监督方式在大型英语语料库上进行预训练的transformers模型。这意味着它只使用原始文本进行预训练,没有以任何方式对其进行人工标注(这就是为什么它可以使用大量的公开数据),并通过一个自动过程从这些文本中生成输入和标签。
更具体地说,它是通过掩码语言建模(MLM)目标进行预训练的。它会随机屏蔽输入中的15%单词,然后将整个屏蔽的句子输入模型,并预测屏蔽的单词。这与传统的递归神经网络(RNN)通常按顺序看到单词的方式,或者与内部屏蔽未来标记的自回归模型(如GPT)不同。它使模型能够学习句子的双向表示。
这样,模型学习到了一种英语语言的内部表示,可以用来提取对下游任务有用的特征:例如,如果你有一个带有标签的句子数据集,你可以使用BERT模型生成的特征作为输入来训练一个标准分类器。
您可以使用原始模型进行掩码语言建模,但它主要用于在下游任务上进行微调。请查看感兴趣的任务的微调版本。
请注意,此模型主要用于在使用整个句子(可能屏蔽)进行决策的任务上进行微调,如序列分类、标记分类或问答。对于文本生成等任务,您应该查看类似GPT2的模型。
当在下游任务上进行微调时,该模型实现了以下结果:
Glue测试结果:
Model | MNLI | QQP | QNLI | SST-2 | CoLA | STS-B | MRPC | RTE | SQuAD |
---|---|---|---|---|---|---|---|---|---|
Roberta-large | 90.2 | 92.2 | 94.7 | 96.4 | 63.6 | 91.2 | 90.9 | 88.1 | 88.7 |
MUPPET Roberta-large | 90.8 | 92.2 | 94.9 | 97.4 | - | - | 91.4 | 92.8 | 89.4 |
@article{DBLP:journals/corr/abs-2101-11038, author = {Armen Aghajanyan and Anchit Gupta and Akshat Shrivastava and Xilun Chen and Luke Zettlemoyer and Sonal Gupta}, title = {Muppet: Massive Multi-task Representations with Pre-Finetuning}, journal = {CoRR}, volume = {abs/2101.11038}, year = {2021}, url = {https://arxiv.org/abs/2101.11038}, archivePrefix = {arXiv}, eprint = {2101.11038}, timestamp = {Sun, 31 Jan 2021 17:23:50 +0100}, biburl = {https://dblp.org/rec/journals/corr/abs-2101-11038.bib}, bibsource = {dblp computer science bibliography, https://dblp.org} }