英文

RemBERT (分类用)

使用遮蔽语言建模(MLM)目标在110种语言上对RemBERT进行了预训练。它是在论文 Rethinking embedding coupling in pre-trained language models 中提出的。初始的模型检查点直接导出在 this repository 中提供。此版本的检查点很轻量,因为它用于分类的微调,排除了输出嵌入权重。

模型描述

RemBERT与mBERT的主要区别在于输入嵌入和输出嵌入没有绑定。相反,RemBERT使用较小的输入嵌入和较大的输出嵌入。这使得模型更高效,因为在微调期间丢弃了输出嵌入。特别是当将输入嵌入的参数重新投资到核心模型中时,RemBERT更准确。

用途和限制

您应该对下游任务进行此模型的微调。它类似于mBERT,是一个通用模型。在我们的 paper 中,我们已经成功地将此模型应用于分类、问答、命名实体识别、词性标注等任务。对于文本生成等任务,您应该查看像GPT2这样的模型。

训练数据

RemBERT模型在110种语言的多语言维基百科数据上进行了预训练。完整的语言列表在 this repository 中。

BibTeX条目和引用信息

@inproceedings{DBLP:conf/iclr/ChungFTJR21,
  author    = {Hyung Won Chung and
               Thibault F{\'{e}}vry and
               Henry Tsai and
               Melvin Johnson and
               Sebastian Ruder},
  title     = {Rethinking Embedding Coupling in Pre-trained Language Models},
  booktitle = {9th International Conference on Learning Representations, {ICLR} 2021,
               Virtual Event, Austria, May 3-7, 2021},
  publisher = {OpenReview.net},
  year      = {2021},
  url       = {https://openreview.net/forum?id=xpFFI\_NtgpW},
  timestamp = {Wed, 23 Jun 2021 17:36:39 +0200},
  biburl    = {https://dblp.org/rec/conf/iclr/ChungFTJR21.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}