模型:

classla/bcms-bertic

英文

BERTić* [bert-ich] /bɜrtitʃ/ - 为波斯尼亚语、克罗地亚语、黑山语和塞尔维亚语的转换语言模型

* 名字应该体现以下事实:(1)该模型是在克罗地亚的萨格勒布训练的,那里的名词后缀为-ić(例如fotić,smajlić,hengić等)非常流行,(2)在这些语言的国家中,大多数姓氏的后缀也是-ić(同样具有小型化词源)。

这个Electra模型是在波斯尼亚语、克罗地亚语、黑山语和塞尔维亚语的文本上训练的超过80亿个标记。

*新加入* 我们已经发布了该模型在命名实体识别任务( bcms-bertic-ner )和仇恨言论检测任务( bcms-bertic-frenk-hate )上的微调版本。

如果您使用了该模型,请引用以下论文:

@inproceedings{ljubesic-lauc-2021-bertic,
    title = "{BERT}i{\'c} - The Transformer Language Model for {B}osnian, {C}roatian, {M}ontenegrin and {S}erbian",
    author = "Ljube{\v{s}}i{\'c}, Nikola  and Lauc, Davor",
    booktitle = "Proceedings of the 8th Workshop on Balto-Slavic Natural Language Processing",
    month = apr,
    year = "2021",
    address = "Kiyv, Ukraine",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2021.bsnlp-1.5",
    pages = "37--42",
}

基准测试

将这个模型与 multilingual BERT CroSloEngual BERT 在以下任务上进行比较:(1)词性标注,(2)命名实体识别,(3)地理位置预测,以及(4)常识因果推理,结果显示BERTić模型优于其他两个模型。

词性标注

评估指标是(seqeval)microF1。报告的结果是五次运行的平均值。最佳结果以粗体呈现。通过双尾t检验计算两个最佳系统之间的统计显著性(* p<=0.05,** p<=0.01,*** p<=0.001,***** p<=0.0001)。

Dataset Language Variety CLASSLA mBERT cseBERT BERTić
hr500k Croatian standard 93.87 94.60 95.74 95.81***
reldi-hr Croatian internet non-standard - 88.87 91.63 92.28***
SETimes.SR Serbian standard 95.00 95.50 96.41 96.31
reldi-sr Serbian internet non-standard - 91.26 93.54 93.90***

命名实体识别

评估指标是(seqeval)microF1。报告的结果是五次运行的平均值。最佳结果以粗体呈现。通过双尾t检验计算两个最佳系统之间的统计显著性(* p<=0.05,** p<=0.01,*** p<=0.001,***** p<=0.0001)。

Dataset Language Variety CLASSLA mBERT cseBERT BERTić
hr500k Croatian standard 80.13 85.67 88.98 89.21****
reldi-hr Croatian internet non-standard - 76.06 81.38 83.05****
SETimes.SR Serbian standard 84.64 92.41 92.28 92.02
reldi-sr Serbian internet non-standard - 81.29 82.76 87.92****

地理位置预测

数据集来自VarDial 2020评估活动的共享任务 Social Media variety Geolocation prediction 。该任务是给定一个推特的文本,预测其纬度和经度。

评估指标为金标准和预测地理位置之间的距离的中位数和均值(较小的值越好)。由于测试集较大(39,723个实例),不计算统计显著性。基线模型将每个文本预测为训练数据集的中心点。

System Median Mean
centroid 107.10 145.72
mBERT 42.25 82.05
cseBERT 40.76 81.88
BERTić 37.96 79.30

可能性选项的选择

数据集是将 COPA dataset 翻译成克罗地亚语的( link to the dataset )。

评估指标为准确性。报告的结果是五次运行的平均值。最佳结果以粗体呈现。通过双尾t检验计算两个最佳系统之间的统计显著性(* p<=0.05,** p<=0.01,*** p<=0.001,***** p<=0.0001)。

System Accuracy
random 50.00
mBERT 54.12
cseBERT 61.80
BERTić 65.76**