模型:
classla/bcms-bertic
* 名字应该体现以下事实:(1)该模型是在克罗地亚的萨格勒布训练的,那里的名词后缀为-ić(例如fotić,smajlić,hengić等)非常流行,(2)在这些语言的国家中,大多数姓氏的后缀也是-ić(同样具有小型化词源)。
这个Electra模型是在波斯尼亚语、克罗地亚语、黑山语和塞尔维亚语的文本上训练的超过80亿个标记。
*新加入* 我们已经发布了该模型在命名实体识别任务( bcms-bertic-ner )和仇恨言论检测任务( bcms-bertic-frenk-hate )上的微调版本。
如果您使用了该模型,请引用以下论文:
@inproceedings{ljubesic-lauc-2021-bertic, title = "{BERT}i{\'c} - The Transformer Language Model for {B}osnian, {C}roatian, {M}ontenegrin and {S}erbian", author = "Ljube{\v{s}}i{\'c}, Nikola and Lauc, Davor", booktitle = "Proceedings of the 8th Workshop on Balto-Slavic Natural Language Processing", month = apr, year = "2021", address = "Kiyv, Ukraine", publisher = "Association for Computational Linguistics", url = "https://www.aclweb.org/anthology/2021.bsnlp-1.5", pages = "37--42", }
将这个模型与 multilingual BERT 和 CroSloEngual BERT 在以下任务上进行比较:(1)词性标注,(2)命名实体识别,(3)地理位置预测,以及(4)常识因果推理,结果显示BERTić模型优于其他两个模型。
评估指标是(seqeval)microF1。报告的结果是五次运行的平均值。最佳结果以粗体呈现。通过双尾t检验计算两个最佳系统之间的统计显著性(* p<=0.05,** p<=0.01,*** p<=0.001,***** p<=0.0001)。
Dataset | Language | Variety | CLASSLA | mBERT | cseBERT | BERTić |
---|---|---|---|---|---|---|
hr500k | Croatian | standard | 93.87 | 94.60 | 95.74 | 95.81*** |
reldi-hr | Croatian | internet non-standard | - | 88.87 | 91.63 | 92.28*** |
SETimes.SR | Serbian | standard | 95.00 | 95.50 | 96.41 | 96.31 |
reldi-sr | Serbian | internet non-standard | - | 91.26 | 93.54 | 93.90*** |
评估指标是(seqeval)microF1。报告的结果是五次运行的平均值。最佳结果以粗体呈现。通过双尾t检验计算两个最佳系统之间的统计显著性(* p<=0.05,** p<=0.01,*** p<=0.001,***** p<=0.0001)。
Dataset | Language | Variety | CLASSLA | mBERT | cseBERT | BERTić |
---|---|---|---|---|---|---|
hr500k | Croatian | standard | 80.13 | 85.67 | 88.98 | 89.21**** |
reldi-hr | Croatian | internet non-standard | - | 76.06 | 81.38 | 83.05**** |
SETimes.SR | Serbian | standard | 84.64 | 92.41 | 92.28 | 92.02 |
reldi-sr | Serbian | internet non-standard | - | 81.29 | 82.76 | 87.92**** |
数据集来自VarDial 2020评估活动的共享任务 Social Media variety Geolocation prediction 。该任务是给定一个推特的文本,预测其纬度和经度。
评估指标为金标准和预测地理位置之间的距离的中位数和均值(较小的值越好)。由于测试集较大(39,723个实例),不计算统计显著性。基线模型将每个文本预测为训练数据集的中心点。
System | Median | Mean |
---|---|---|
centroid | 107.10 | 145.72 |
mBERT | 42.25 | 82.05 |
cseBERT | 40.76 | 81.88 |
BERTić | 37.96 | 79.30 |
数据集是将 COPA dataset 翻译成克罗地亚语的( link to the dataset )。
评估指标为准确性。报告的结果是五次运行的平均值。最佳结果以粗体呈现。通过双尾t检验计算两个最佳系统之间的统计显著性(* p<=0.05,** p<=0.01,*** p<=0.001,***** p<=0.0001)。
System | Accuracy |
---|---|
random | 50.00 |
mBERT | 54.12 |
cseBERT | 61.80 |
BERTić | 65.76** |