英文

RobBERT-2022:更新荷兰语言模型以应对语言使用的变化。

RobBERT-2022是最新发布的 Dutch RobBERT model 语言模型的版本。它在2022年版本的OSCAR数据集上对原始 pdelobelle/robbert-v2-dutch-base 模型进行了进一步的预训练。由于使用了更新的数据集,这个 DTAI-KULeuven/robbert-2022-dutch-base 模型在与最近事件相关的几个任务中表现出更高的性能,例如与COVID-19相关的任务。我们还发现,在一些任务中,这个新模型的表现仍然不及不包含比2019年更近信息的原始 pdelobelle/robbert-v2-dutch-base RobBERT模型。

原始的RobBERT模型于2020年1月发布。自那时以来,荷兰语言发生了很大变化,例如COVID-19大流行引入了很多新词汇,这些词汇突然成为日常使用。此外,原始模型认为的许多其他世界事实也发生了变化。为了解决这个问题和其他语言使用方面的变化,我们发布了一个基于2022年数据训练的新荷兰语BERT模型:RobBERT 2022.有关RobBERT-2022的更详细信息,请参见我们的 blog post our paper the original RobBERT paper the RobBERT Github repository

使用方法

RobBERT-2022和RobBERT都使用 RoBERTa 架构和预训练模型,但使用荷兰语的分词器和训练数据。RoBERTa是一个经过优化的英语BERT模型,使其比原始的BERT模型更强大。由于拥有相同的架构,RobBERT可以使用 code to finetune RoBERTa 模型和大多数用于BERT模型的代码进行微调和推断,例如由 HuggingFace Transformers 库提供的代码。

默认情况下,RobBERT-2022使用了训练中使用的掩码语言模型头部。这可以作为一种零-shot方式填充句子中的掩码。你可以在 RobBERT's Hosted infererence API of Huggingface 上免费测试它。你还可以通过将模型名称更改为 DTAI-KULeuven/robbert-2022-dutch-base ,使用HuggingFace的 RoBERTa-runners their fine-tuning notebooks 为自己的任务创建一个新的预测头部。

from transformers import AutoTokenizer, AutoModelForSequenceClassification
tokenizer = AutoTokenizer.from_pretrained("DTAI-KULeuven/robbert-2022-dutch-base")
model = AutoModelForSequenceClassification.from_pretrained("DTAI-KULeuven/robbert-2022-dutch-base")

然后,您可以使用大多数 HuggingFace's BERT-based notebooks 在您的类型的荷兰语数据集上对RobBERT-2022进行微调。

可用荷兰语BERT模型的比较

有各种各样的基于BERT的荷兰语模型可用于在您的任务上进行微调。以下是一个快速摘要,以找到适合您需求的模型:

  • pdelobelle/robbert-v2-dutch-base :RobBERT模型多年来一直是大多数语言任务的最佳BERT模型。它是基于大规模荷兰网页数据集(OSCAR)进行训练的,并使用了超级 RoBERTa 架构,该架构对原始 BERT model 进行了优化。
  • DTAI-KULeuven/robbertje-1-gb-merged :RobBERTje模型是RobBERT的精简版本,体积约为其一半,并且推理速度快四倍。这有助于为您的语言任务部署更可扩展的语言模型。
  • DTAI-KULeuven/robbert-2022-dutch-base :RobBERT-2022是在OSCAR2022数据集上进一步预训练的RobBERT模型。它对依赖更近期事件的词汇和/或信息的任务非常有帮助。

还有 GroNLP/bert-base-dutch-cased "BERTje"模型。该模型使用过时的基本BERT模型,并在较小的纯净荷兰文本语料库上进行训练。由于RobBERT更现代的架构以及其更大和更贴近真实世界的训练语料库,大多数研究人员和实践者似乎在其语言任务中获得更高的性能。

论文的技术细节

我们的性能评估结果

所有实验在我们的 paper 中有更详细的描述,代码在 our GitHub repository 中。

情感分析

使用 Dutch Book Reviews Dataset 预测评论是积极的还是消极的。

Model Accuracy [%]
ULMFiT 93.8
BERTje 93.0
RobBERT v2 94.4
RobBERT 2022 95.1

Die/Dat(回指消歧)

我们通过预测句子中应该填入"die"或"dat"来衡量模型进行回指消解的能力。为此,我们使用了 EuroParl corpus

在整个数据集上进行微调
Model Accuracy [%] F1 [%]
12327321 (LSTM) 75.03
mBERT 98.285 98.033
BERTje 98.268 98.014
RobBERT v2 99.232 99.121
RobBERT 2022 97.8
在10K个示例上进行微调

我们还使用仅有10K个训练示例的性能进行了测量。这个实验清楚地表明,当数据有限时,RobBERT的性能优于其他模型。

Model Accuracy [%] F1 [%]
mBERT 92.157 90.898
BERTje 93.096 91.279
RobBERT v2 97.816 97.514
使用零-shot词语掩码任务

由于BERT模型是使用词语掩码任务进行预训练的,我们可以使用它来预测"die"或"dat"更可能出现。这个实验显示RobBERT内部化了比其他模型更多的荷兰语信息。

Model Accuracy [%]
ZeroR 66.70
mBERT 90.21
BERTje 94.94
RobBERT v2 98.75

词性标注。

使用 Lassy UD dataset

Model Accuracy [%]
Frog 91.7
mBERT 96.5
BERTje 96.3
RobBERT v2 96.4
RobBERT 2022 96.1

致谢和引用

该项目由 Pieter Delobelle Thomas Winters Bettina Berendt 创建。如果您希望引用我们的论文或模型,可以使用以下BibTeX:

@inproceedings{delobelle2022robbert2022,
  doi = {10.48550/ARXIV.2211.08192},
  url = {https://arxiv.org/abs/2211.08192},
  author = {Delobelle, Pieter and Winters, Thomas and Berendt, Bettina},
  keywords = {Computation and Language (cs.CL), Machine Learning (cs.LG), FOS: Computer and information sciences, FOS: Computer and information sciences},
  title = {RobBERT-2022: Updating a Dutch Language Model to Account for Evolving Language Use},
  venue = {arXiv},
  year = {2022},
}

@inproceedings{delobelle2020robbert,
    title = "{R}ob{BERT}: a {D}utch {R}o{BERT}a-based {L}anguage {M}odel",
    author = "Delobelle, Pieter  and
      Winters, Thomas  and
      Berendt, Bettina",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.findings-emnlp.292",
    doi = "10.18653/v1/2020.findings-emnlp.292",
    pages = "3255--3265"
}