Hugging Face's logo

语言:

ar
de
en
es
fr
it
lv
nl
pt
zh
多语种

xlm-roberta-large-ner-hrl

模型描述

xlm-roberta-large-ner-hrl 是一个针对10种高资源语言（阿拉伯语、德语、英语、西班牙语、法语、意大利语、拉脱维亚语、荷兰语、葡萄牙语和中文）的命名实体识别模型，基于经过微调的XLM-RoBERTa large模型。它已经训练出能够识别三种类型的实体：地点（LOC）、组织（ORG）和人名（PER）。具体来说，该模型是基于10种高资源语言的xlm-roberta-large模型进行微调训练得到的。

预期用途和限制

如何使用

您可以将这个模型与 Transformers 管道一起用于命名实体识别。

注意事项和偏见

该模型受限于其训练数据集，该数据集包含特定时间段内的带有实体标注的新闻文章。这可能无法很好地适用于不同领域的所有用例。

训练数据

10种语言的训练数据来源如下:

训练程序

由于训练数据集可以区分实体的开始和连续性，因此如果连续两个实体属于同一类型，模型可以输出第二个实体的开始位置。与数据集一样，每个标记将被分类为以下类别之一:

训练程序过程

该模型使用HuggingFace代码中的推荐超参数在NVIDIA V100 GPU上进行训练。

作者:

David Adelani

数据集大小:

6.25 GB