模型:
facebook/muppet-roberta-base
这是RoBERTa基础模型的大规模多任务预精调版本。它在广泛的GLUE、QA任务上改进了roberta-base的性能(详细信息可在论文中找到)。在较小的数据集上取得了显著的增益。
注意:由于兼容性问题,此检查点不包含在预精调过程中使用的分类/机器阅读理解头部,因此在某些数据集上可能会略低于论文中报告的性能。
RoBERTa是一个在大规模英语语料库上进行自监督训练的transformers模型。这意味着它仅在原始文本上进行预训练,而没有通过任何方式进行人工标注(这就是为什么它可以使用大量公开可用的数据),它使用一个自动化过程从这些文本中生成输入和标签。
更准确地说,它是通过遮盖语言模型(MLM)目标进行预训练的。它随机遮盖输入中15%的单词,然后将整个遮盖的句子通过模型,并预测被屏蔽的单词。这与传统的递归神经网络(RNN)通常一次看到一个词,或者与类似GPT的自回归模型在内部屏蔽未来记号的方式不同。它使模型能够学习句子的双向表示。
这样,模型学习了英语语言的内部表示,可以用于提取对下游任务有用的特征:如果你有一个标记句子的数据集,可以使用BERT模型生成的特征作为输入来训练标准分类器。
您可以使用原始模型进行遮盖语言建模,但它主要用于在下游任务上进行精细调整。请查看您感兴趣的任务的预调整版本。
请注意,此模型主要用于在使用整个句子(可能遮盖)进行决策的任务上进行精细调整,例如序列分类、标记分类或问答。对于文本生成等任务,您应该查看像GPT2这样的模型。
当在下游任务上进行精细调整时,该模型的实现以下结果:
GLUE测试结果:
Model | MNLI | QQP | QNLI | SST-2 | CoLA | STS-B | MRPC | RTE | SQuAD |
---|---|---|---|---|---|---|---|---|---|
Roberta-base | 87.6 | 91.9 | 92.8 | 94.8 | 63.6 | 91.2 | 90.2 | 78.7 | 82.6 |
MUPPET Roberta-base | 88.1 | 91.9 | 93.3 | 96.7 | - | - | 91.7 | 87.8 | 86.6 |
@article{DBLP:journals/corr/abs-2101-11038, author = {Armen Aghajanyan and Anchit Gupta and Akshat Shrivastava and Xilun Chen and Luke Zettlemoyer and Sonal Gupta}, title = {Muppet: Massive Multi-task Representations with Pre-Finetuning}, journal = {CoRR}, volume = {abs/2101.11038}, year = {2021}, url = {https://arxiv.org/abs/2101.11038}, archivePrefix = {arXiv}, eprint = {2101.11038}, timestamp = {Sun, 31 Jan 2021 17:23:50 +0100}, biburl = {https://dblp.org/rec/journals/corr/abs-2101-11038.bib}, bibsource = {dblp computer science bibliography, https://dblp.org} }