模型已经训练好,可以预测英语句子是正式还是非正式。
基础模型: roberta-base
数据集: GYAFC 来自 Rao and Tetreault, 2018 和 online formality corpus 来自 Pavlick and Tetreault, 2016 。
数据增强: 将文本转换为大写或小写;删除所有标点符号,在句子末尾添加句号。这样做是因为否则模型会过分依赖标点符号和大小写,而没有足够关注其他特征。
损失函数: 二分类(对GYAFC数据集),批次内排序(对PT数据集)。
测试数据上的性能指标:
dataset | ROC AUC | precision | recall | fscore | accuracy | Spearman |
---|---|---|---|---|---|---|
GYAFC | 0.9779 | 0.90 | 0.91 | 0.90 | 0.9087 | 0.8233 |
GYAFC normalized (lowercase + remove punct.) | 0.9234 | 0.85 | 0.81 | 0.82 | 0.8218 | 0.7294 |
P&T subset | Spearman R |
---|---|
news | 0.4003 |
answers | 0.7500 |
blog | 0.7334 |
0.7606 |