模型:
alexandrainst/da-offensive-detection-base
这个模型是在大约500万条来自 DR 的公共Facebook页面上的评论数据集上进行微调的版本。标签是使用弱监督方法自动生成的,基于 Snorkel 框架。
该模型在一个包含600个Facebook评论的测试集上取得了SOTA,这些评论是由三个注释者进行多数投票标注的,其中35.8%被标记为冒犯性:
Model | Precision | Recall | F1-score | F2-score |
---|---|---|---|---|
alexandrainst/da-offensive-detection-base (this) | 74.81% | 89.77% | 81.61% | 86.32% |
1235321 | 74.13% | 89.30% | 81.01% | 85.79% |
1236321 | 97.32% | 50.70% | 66.67% | 56.07% |
1237321 | 86.43% | 56.28% | 68.17% | 60.50% |
1238321 | 75.41% | 42.79% | 54.60% | 46.84% |
您可以通过运行以下命令来使用该模型:
>>> from transformers import pipeline >>> offensive_text_pipeline = pipeline(model="alexandrainst/da-offensive-detection-base") >>> offensive_text_pipeline("Din store idiot") [{'label': 'Offensive', 'score': 0.9997463822364807}]
可以通过以下方式同时处理多个文档:
>>> offensive_text_pipeline(["Din store idiot", "ej hvor godt :)"]) [{'label': 'Offensive', 'score': 0.9997463822364807}, {'label': 'Not offensive', 'score': 0.9996451139450073}]
训练时使用了以下超参数: