这是对 RobBERTje (merged) 进行情感分析的RobBERTje模型的微调版本。我们使用了 DBRD ,其中包含来自hebban.nl的图书评论。因此,我们的示例句子都是关于图书的。我们进行了一些有限的实验,以测试该模型是否适用于其他领域,但结果并不理想。
我们发布了一个精简模型和一个基准模型。这两个模型都表现出色,所以只有轻微的性能牺牲:
Model | Identifier | Layers | #Params. | Accuracy |
---|---|---|---|---|
RobBERT (v2) | 1233321 | 12 | 116 M | 93.3* |
RobBERTje - Merged (p=0.5) | 1234321 | 6 | 74 M | 92.9 |
* RobBERT的结果与论文中报告的结果不同。
我们使用了van der Burgh等人(2019)的 Dutch Book Reviews Dataset (DBRD) 。这些评论最初是五星评级,但已转换为积极(⭐️⭐️⭐️⭐️和⭐️⭐️⭐️⭐️⭐️),中立(⭐️⭐️⭐️)和消极(⭐️和⭐️⭐️)的评级。我们使用19.5k条评论作为训练集,528条评论作为验证集,并使用2224条评论计算最终准确性。
验证集用于评估学习率、权重衰减和梯度积累步骤的随机超参数搜索。完整的训练细节可以在 training_args.bin 中作为一个二进制PyTorch文件中找到。
此项目由 Pieter Delobelle 、 Thomas Winters 和 Bettina Berendt 创建。如果您想引用我们的论文或模型,可以使用以下BibTeX:
@article{Delobelle_Winters_Berendt_2021, title = {RobBERTje: A Distilled Dutch BERT Model}, author = {Delobelle, Pieter and Winters, Thomas and Berendt, Bettina}, year = 2021, month = {Dec.}, journal = {Computational Linguistics in the Netherlands Journal}, volume = 11, pages = {125–140}, url = {https://www.clinjournal.org/clinj/article/view/131} } @inproceedings{delobelle2020robbert, title = "{R}ob{BERT}: a {D}utch {R}o{BERT}a-based {L}anguage {M}odel", author = "Delobelle, Pieter and Winters, Thomas and Berendt, Bettina", booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020", month = nov, year = "2020", address = "Online", publisher = "Association for Computational Linguistics", url = "https://www.aclweb.org/anthology/2020.findings-emnlp.292", doi = "10.18653/v1/2020.findings-emnlp.292", pages = "3255--3265" }