模型:

DTAI-KULeuven/robbert-v2-dutch-sentiment

英文

RobBERT用于DBRD上的情感分析的微调

这是基于 RobBERT (v2) 的微调模型。我们使用了 DBRD ,其中包含了来自 hebban.nl 的书评。因此我们的例句是关于书籍的。我们进行了一些有限的实验来测试是否适用于其他领域,但效果并不令人惊讶。

我们发布了一个蒸馏模型和一个基础模型。这两个模型表现都很好,所以只有轻微的性能折衷:

Model Identifier Layers #Params. Accuracy
RobBERT (v2) 1234321 12 116 M 93.3*
RobBERTje - Merged (p=0.5) 1235321 6 74 M 92.9

*RobBERT的结果是与论文中报告的结果不同的运行结果。

训练数据和设置

我们使用了van der Burgh等人(2019)的 Dutch Book Reviews Dataset (DBRD) 。最初,这些书评获得了五星评级,但我们将其转换为了积极(⭐️⭐️⭐️⭐️和⭐️⭐️⭐️⭐️⭐️)、中立(⭐️⭐️⭐️)和消极(⭐️和⭐️⭐️)。我们使用了19.5k的评论作为训练集,528个评论作为验证集,以及2224个评论用于计算最终准确性。

验证集用于评估学习率、权重衰减和梯度累积步骤的随机超参数搜索。完整的训练细节可在 training_args.bin 中的二进制PyTorch文件中找到。

限制和偏见

  • 评论的领域仅限于书评。
  • 大多数书评的作者是女性,这可能导致了 a difference in performance for reviews written by men and women
  • 这不是我们论文中讨论的同一个模型,由于原始训练两年前和现在之间的一些转换问题,重新训练这个模型更容易。准确性略有降低,但模型是在评论开头而不是评论结尾进行训练的。

鸣谢和引用

该项目由 Pieter Delobelle Thomas Winters Bettina Berendt 创建。如果您想引用我们的论文或模型,可以使用以下的BibTeX:

@inproceedings{delobelle2020robbert,
    title = "{R}ob{BERT}: a {D}utch {R}o{BERT}a-based {L}anguage {M}odel",
    author = "Delobelle, Pieter  and
      Winters, Thomas  and
      Berendt, Bettina",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.findings-emnlp.292",
    doi = "10.18653/v1/2020.findings-emnlp.292",
    pages = "3255--3265"
}