模型:
google/rembert
使用遮蔽语言建模(MLM)目标在110种语言上对RemBERT进行了预训练。它是在论文 Rethinking embedding coupling in pre-trained language models 中提出的。初始的模型检查点直接导出在 this repository 中提供。此版本的检查点很轻量,因为它用于分类的微调,排除了输出嵌入权重。
RemBERT与mBERT的主要区别在于输入嵌入和输出嵌入没有绑定。相反,RemBERT使用较小的输入嵌入和较大的输出嵌入。这使得模型更高效,因为在微调期间丢弃了输出嵌入。特别是当将输入嵌入的参数重新投资到核心模型中时,RemBERT更准确。
您应该对下游任务进行此模型的微调。它类似于mBERT,是一个通用模型。在我们的 paper 中,我们已经成功地将此模型应用于分类、问答、命名实体识别、词性标注等任务。对于文本生成等任务,您应该查看像GPT2这样的模型。
RemBERT模型在110种语言的多语言维基百科数据上进行了预训练。完整的语言列表在 this repository 中。
@inproceedings{DBLP:conf/iclr/ChungFTJR21, author = {Hyung Won Chung and Thibault F{\'{e}}vry and Henry Tsai and Melvin Johnson and Sebastian Ruder}, title = {Rethinking Embedding Coupling in Pre-trained Language Models}, booktitle = {9th International Conference on Learning Representations, {ICLR} 2021, Virtual Event, Austria, May 3-7, 2021}, publisher = {OpenReview.net}, year = {2021}, url = {https://openreview.net/forum?id=xpFFI\_NtgpW}, timestamp = {Wed, 23 Jun 2021 17:36:39 +0200}, biburl = {https://dblp.org/rec/conf/iclr/ChungFTJR21.bib}, bibsource = {dblp computer science bibliography, https://dblp.org} }