模型:

Davlan/bert-base-multilingual-cased-finetuned-amharic

英文

Hugging Face的标志

语言:am数据集:

bert-base-multilingual-cased-finetuned-amharic

模型描述

bert-base-multilingual-cased-finetuned-amharic 是通过将mBERT词汇表替换为阿姆哈拉语词汇表并在阿姆哈拉语文本上对bert-base-multilingual-cased模型进行微调而获得的阿姆哈拉语BERT模型。它在命名实体识别数据集上提供比多语言阿姆哈拉语更好的性能。

具体来说,该模型是在阿姆哈拉语语料库上使用阿姆哈拉语词汇对bert-base-multilingual-cased模型进行微调的模型。

预期用途和限制

如何使用

您可以使用此模型与Transformers管道一起进行遮蔽标记预测。

>>> from transformers import pipeline
>>> unmasker = pipeline('fill-mask', model='Davlan/bert-base-multilingual-cased-finetuned-amharic')
>>> unmasker("የአሜሪካ የአፍሪካ ቀንድ ልዩ መልዕክተኛ ጄፈሪ ፌልትማን በአራት አገራት የሚያደጉትን [MASK] መጀመራቸውን የአሜሪካ የውጪ ጉዳይ ሚንስቴር አስታወቀ።")
                    
限制和偏见

此模型的训练数据集仅限于特定时间段的实体注释新闻文章。这可能不能很好地推广到不同领域的所有用例。

训练数据

该模型是在 Amharic CC-100 上进行微调的

训练过程

该模型是在单个NVIDIA V100 GPU上训练的

测试集上的评估结果(F-得分,平均重复5次)

Dataset mBERT F1 am_bert F1
1232321 0.0 60.89

BibTeX条目和引用信息

作者:戴维·阿德拉尼