模型:
DTAI-KULeuven/robbert-2022-dutch-base
RobBERT-2022是最新发布的 Dutch RobBERT model 语言模型的版本。它在2022年版本的OSCAR数据集上对原始 pdelobelle/robbert-v2-dutch-base 模型进行了进一步的预训练。由于使用了更新的数据集,这个 DTAI-KULeuven/robbert-2022-dutch-base 模型在与最近事件相关的几个任务中表现出更高的性能,例如与COVID-19相关的任务。我们还发现,在一些任务中,这个新模型的表现仍然不及不包含比2019年更近信息的原始 pdelobelle/robbert-v2-dutch-base RobBERT模型。
原始的RobBERT模型于2020年1月发布。自那时以来,荷兰语言发生了很大变化,例如COVID-19大流行引入了很多新词汇,这些词汇突然成为日常使用。此外,原始模型认为的许多其他世界事实也发生了变化。为了解决这个问题和其他语言使用方面的变化,我们发布了一个基于2022年数据训练的新荷兰语BERT模型:RobBERT 2022.有关RobBERT-2022的更详细信息,请参见我们的 blog post , our paper , the original RobBERT paper 和 the RobBERT Github repository 。
RobBERT-2022和RobBERT都使用 RoBERTa 架构和预训练模型,但使用荷兰语的分词器和训练数据。RoBERTa是一个经过优化的英语BERT模型,使其比原始的BERT模型更强大。由于拥有相同的架构,RobBERT可以使用 code to finetune RoBERTa 模型和大多数用于BERT模型的代码进行微调和推断,例如由 HuggingFace Transformers 库提供的代码。
默认情况下,RobBERT-2022使用了训练中使用的掩码语言模型头部。这可以作为一种零-shot方式填充句子中的掩码。你可以在 RobBERT's Hosted infererence API of Huggingface 上免费测试它。你还可以通过将模型名称更改为 DTAI-KULeuven/robbert-2022-dutch-base ,使用HuggingFace的 RoBERTa-runners 或 their fine-tuning notebooks 为自己的任务创建一个新的预测头部。
from transformers import AutoTokenizer, AutoModelForSequenceClassification tokenizer = AutoTokenizer.from_pretrained("DTAI-KULeuven/robbert-2022-dutch-base") model = AutoModelForSequenceClassification.from_pretrained("DTAI-KULeuven/robbert-2022-dutch-base")
然后,您可以使用大多数 HuggingFace's BERT-based notebooks 在您的类型的荷兰语数据集上对RobBERT-2022进行微调。
有各种各样的基于BERT的荷兰语模型可用于在您的任务上进行微调。以下是一个快速摘要,以找到适合您需求的模型:
还有 GroNLP/bert-base-dutch-cased "BERTje"模型。该模型使用过时的基本BERT模型,并在较小的纯净荷兰文本语料库上进行训练。由于RobBERT更现代的架构以及其更大和更贴近真实世界的训练语料库,大多数研究人员和实践者似乎在其语言任务中获得更高的性能。
所有实验在我们的 paper 中有更详细的描述,代码在 our GitHub repository 中。
使用 Dutch Book Reviews Dataset 预测评论是积极的还是消极的。
Model | Accuracy [%] |
---|---|
ULMFiT | 93.8 |
BERTje | 93.0 |
RobBERT v2 | 94.4 |
RobBERT 2022 | 95.1 |
我们通过预测句子中应该填入"die"或"dat"来衡量模型进行回指消解的能力。为此,我们使用了 EuroParl corpus 。
在整个数据集上进行微调Model | Accuracy [%] | F1 [%] |
---|---|---|
12327321 (LSTM) | 75.03 | |
mBERT | 98.285 | 98.033 |
BERTje | 98.268 | 98.014 |
RobBERT v2 | 99.232 | 99.121 |
RobBERT 2022 | 97.8 |
我们还使用仅有10K个训练示例的性能进行了测量。这个实验清楚地表明,当数据有限时,RobBERT的性能优于其他模型。
Model | Accuracy [%] | F1 [%] |
---|---|---|
mBERT | 92.157 | 90.898 |
BERTje | 93.096 | 91.279 |
RobBERT v2 | 97.816 | 97.514 |
由于BERT模型是使用词语掩码任务进行预训练的,我们可以使用它来预测"die"或"dat"更可能出现。这个实验显示RobBERT内部化了比其他模型更多的荷兰语信息。
Model | Accuracy [%] |
---|---|
ZeroR | 66.70 |
mBERT | 90.21 |
BERTje | 94.94 |
RobBERT v2 | 98.75 |
使用 Lassy UD dataset 。
Model | Accuracy [%] |
---|---|
Frog | 91.7 |
mBERT | 96.5 |
BERTje | 96.3 |
RobBERT v2 | 96.4 |
RobBERT 2022 | 96.1 |
该项目由 Pieter Delobelle , Thomas Winters 和 Bettina Berendt 创建。如果您希望引用我们的论文或模型,可以使用以下BibTeX:
@inproceedings{delobelle2022robbert2022, doi = {10.48550/ARXIV.2211.08192}, url = {https://arxiv.org/abs/2211.08192}, author = {Delobelle, Pieter and Winters, Thomas and Berendt, Bettina}, keywords = {Computation and Language (cs.CL), Machine Learning (cs.LG), FOS: Computer and information sciences, FOS: Computer and information sciences}, title = {RobBERT-2022: Updating a Dutch Language Model to Account for Evolving Language Use}, venue = {arXiv}, year = {2022}, } @inproceedings{delobelle2020robbert, title = "{R}ob{BERT}: a {D}utch {R}o{BERT}a-based {L}anguage {M}odel", author = "Delobelle, Pieter and Winters, Thomas and Berendt, Bettina", booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020", month = nov, year = "2020", address = "Online", publisher = "Association for Computational Linguistics", url = "https://www.aclweb.org/anthology/2020.findings-emnlp.292", doi = "10.18653/v1/2020.findings-emnlp.292", pages = "3255--3265" }