模型:
Davlan/xlm-roberta-base-finetuned-yoruba
language: yodatasets:
xlm-roberta-base-finetuned-yoruba 是通过在Yorùbá语文本上微调xlm-roberta-base模型而得到的Yoruba RoBERTa模型。它在文本分类和命名实体识别数据集上提供了比XLM-RoBERTa更好的性能。
具体来说,该模型是在Yorùbá语语料库上对xlm-roberta-base模型进行微调得到的。
您可以使用此模型与Transformers pipeline进行遮蔽标记预测。
>>> from transformers import pipeline >>> unmasker = pipeline('fill-mask', model='Davlan/xlm-roberta-base-finetuned-yoruba') >>> unmasker("Arẹmọ Phillip to jẹ ọkọ <mask> Elizabeth to ti wa lori aisan ti dagbere faye lẹni ọdun mọkandilọgọrun") [{'sequence': '<s> Arẹmọ Phillip to jẹ ọkọ Queen Elizabeth to ti wa lori aisan ti dagbere faye lẹni ọdun mọkandilọgọrun</s>', 'score': 0.24844281375408173, 'token': 44109, 'token_str': '▁Queen'}, {'sequence': '<s> Arẹmọ Phillip to jẹ ọkọ ile Elizabeth to ti wa lori aisan ti dagbere faye lẹni ọdun mọkandilọgọrun</s>', 'score': 0.1665010154247284, 'token': 1350, 'token_str': '▁ile'}, {'sequence': '<s> Arẹmọ Phillip to jẹ ọkọ ti Elizabeth to ti wa lori aisan ti dagbere faye lẹni ọdun mọkandilọgọrun</s>', 'score': 0.07604238390922546, 'token': 1053, 'token_str': '▁ti'}, {'sequence': '<s> Arẹmọ Phillip to jẹ ọkọ baba Elizabeth to ti wa lori aisan ti dagbere faye lẹni ọdun mọkandilọgọrun</s>', 'score': 0.06353845447301865, 'token': 12878, 'token_str': '▁baba'}, {'sequence': '<s> Arẹmọ Phillip to jẹ ọkọ Oba Elizabeth to ti wa lori aisan ti dagbere faye lẹni ọdun mọkandilọgọrun</s>', 'score': 0.03836742788553238, 'token': 82879, 'token_str': '▁Oba'}]Limitations and bias
该模型的局限性在于其训练数据集仅包括特定时间段内的实体标注新闻文章。这在不同领域的所有用例中可能无法很好地推广。
该模型是在《圣经》、JW300、 Menyo-20k 、 Yoruba Embedding corpus 、 CC-Aligned 、维基百科、新闻语料库(BBC Yoruba、VON Yoruba、Asejere、Alaroye)以及从朋友那里收集的其他小规模数据集上进行微调的。
该模型在一台NVIDIA V100 GPU上进行训练。
Dataset | XLM-R F1 | yo_roberta F1 |
---|---|---|
1234321 | 77.58 | 83.66 |
1235321 |
作者:David Adelani