Hugging Face的标志

language: yodatasets:

xlm-roberta-base-finetuned-yoruba

模型描述

xlm-roberta-base-finetuned-yoruba 是通过在Yorùbá语文本上微调xlm-roberta-base模型而得到的Yoruba RoBERTa模型。它在文本分类和命名实体识别数据集上提供了比XLM-RoBERTa更好的性能。

具体来说，该模型是在Yorùbá语语料库上对xlm-roberta-base模型进行微调得到的。

预期的使用方式和限制

How to use

您可以使用此模型与Transformers pipeline进行遮蔽标记预测。

>>> from transformers import pipeline
>>> unmasker = pipeline('fill-mask', model='Davlan/xlm-roberta-base-finetuned-yoruba')
>>> unmasker("Arẹmọ Phillip to jẹ ọkọ <mask> Elizabeth to ti wa lori aisan ti dagbere faye lẹni ọdun mọkandilọgọrun")
                    
[{'sequence': '<s> Arẹmọ Phillip to jẹ ọkọ Queen Elizabeth to ti wa lori aisan ti dagbere faye lẹni ọdun mọkandilọgọrun</s>', 'score': 0.24844281375408173, 
'token': 44109, 
'token_str': '▁Queen'}, 
{'sequence': '<s> Arẹmọ Phillip to jẹ ọkọ ile Elizabeth to ti wa lori aisan ti dagbere faye lẹni ọdun mọkandilọgọrun</s>', 'score': 0.1665010154247284, 
'token': 1350, 
'token_str': '▁ile'}, 
{'sequence': '<s> Arẹmọ Phillip to jẹ ọkọ ti Elizabeth to ti wa lori aisan ti dagbere faye lẹni ọdun mọkandilọgọrun</s>', 'score': 0.07604238390922546, 
'token': 1053, 
'token_str': '▁ti'}, 
{'sequence': '<s> Arẹmọ Phillip to jẹ ọkọ baba Elizabeth to ti wa lori aisan ti dagbere faye lẹni ọdun mọkandilọgọrun</s>', 'score': 0.06353845447301865, 
'token': 12878, 
'token_str': '▁baba'}, 
{'sequence': '<s> Arẹmọ Phillip to jẹ ọkọ Oba Elizabeth to ti wa lori aisan ti dagbere faye lẹni ọdun mọkandilọgọrun</s>', 'score': 0.03836742788553238, 
'token': 82879, 
'token_str': '▁Oba'}]

Limitations and bias

该模型的局限性在于其训练数据集仅包括特定时间段内的实体标注新闻文章。这在不同领域的所有用例中可能无法很好地推广。

训练数据

该模型是在《圣经》、JW300、 Menyo-20k 、 Yoruba Embedding corpus 、 CC-Aligned 、维基百科、新闻语料库（BBC Yoruba、VON Yoruba、Asejere、Alaroye）以及从朋友那里收集的其他小规模数据集上进行微调的。

训练过程

该模型在一台NVIDIA V100 GPU上进行训练。

在测试集上的评估结果（F分数，5次运行的平均）

Dataset	XLM-R F1	yo_roberta F1
1234321	77.58	83.66
1235321

BibTeX条目和引用信息

作者：David Adelani

作者:

David Adelani

数据集大小:

1.04 GB