BERTić* [bert-ich] /bɜrtitʃ/ - 为波斯尼亚语、克罗地亚语、黑山语和塞尔维亚语的转换语言模型

* 名字应该体现以下事实：(1)该模型是在克罗地亚的萨格勒布训练的，那里的名词后缀为-ić（例如fotić，smajlić，hengić等）非常流行，(2)在这些语言的国家中，大多数姓氏的后缀也是-ić（同样具有小型化词源）。

这个Electra模型是在波斯尼亚语、克罗地亚语、黑山语和塞尔维亚语的文本上训练的超过80亿个标记。

*新加入* 我们已经发布了该模型在命名实体识别任务（ bcms-bertic-ner ）和仇恨言论检测任务（ bcms-bertic-frenk-hate ）上的微调版本。

如果您使用了该模型，请引用以下论文：

@inproceedings{ljubesic-lauc-2021-bertic,
    title = "{BERT}i{\'c} - The Transformer Language Model for {B}osnian, {C}roatian, {M}ontenegrin and {S}erbian",
    author = "Ljube{\v{s}}i{\'c}, Nikola  and Lauc, Davor",
    booktitle = "Proceedings of the 8th Workshop on Balto-Slavic Natural Language Processing",
    month = apr,
    year = "2021",
    address = "Kiyv, Ukraine",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2021.bsnlp-1.5",
    pages = "37--42",
}

基准测试

将这个模型与 multilingual BERT 和 CroSloEngual BERT 在以下任务上进行比较：(1)词性标注，(2)命名实体识别，(3)地理位置预测，以及(4)常识因果推理，结果显示BERTić模型优于其他两个模型。

词性标注

评估指标是（seqeval）microF1。报告的结果是五次运行的平均值。最佳结果以粗体呈现。通过双尾t检验计算两个最佳系统之间的统计显著性（* p<=0.05，** p<=0.01，*** p<=0.001，***** p<=0.0001）。

Dataset	Language	Variety	CLASSLA	mBERT	cseBERT	BERTić
hr500k	Croatian	standard	93.87	94.60	95.74	95.81***
reldi-hr	Croatian	internet non-standard	-	88.87	91.63	92.28***
SETimes.SR	Serbian	standard	95.00	95.50	96.41	96.31
reldi-sr	Serbian	internet non-standard	-	91.26	93.54	93.90***

命名实体识别

Dataset	Language	Variety	CLASSLA	mBERT	cseBERT	BERTić
hr500k	Croatian	standard	80.13	85.67	88.98	89.21****
reldi-hr	Croatian	internet non-standard	-	76.06	81.38	83.05****
SETimes.SR	Serbian	standard	84.64	92.41	92.28	92.02
reldi-sr	Serbian	internet non-standard	-	81.29	82.76	87.92****

地理位置预测

数据集来自VarDial 2020评估活动的共享任务 Social Media variety Geolocation prediction 。该任务是给定一个推特的文本，预测其纬度和经度。

评估指标为金标准和预测地理位置之间的距离的中位数和均值（较小的值越好）。由于测试集较大（39,723个实例），不计算统计显著性。基线模型将每个文本预测为训练数据集的中心点。

System	Median	Mean
centroid	107.10	145.72
mBERT	42.25	82.05
cseBERT	40.76	81.88
BERTić	37.96	79.30

可能性选项的选择

数据集是将 COPA dataset 翻译成克罗地亚语的（ link to the dataset ）。

评估指标为准确性。报告的结果是五次运行的平均值。最佳结果以粗体呈现。通过双尾t检验计算两个最佳系统之间的统计显著性（* p<=0.05，** p<=0.01，*** p<=0.001，***** p<=0.0001）。

System	Accuracy
random	50.00
mBERT	54.12
cseBERT	61.80
BERTić	65.76**

作者:

CLASSLA - CLARIN Knowledge Centre for South-Slavic Languages

数据集大小:

422.28 MB