模型:
Davlan/xlm-roberta-large-ner-hrl
语言:
xlm-roberta-large-ner-hrl 是一个针对10种高资源语言(阿拉伯语、德语、英语、西班牙语、法语、意大利语、拉脱维亚语、荷兰语、葡萄牙语和中文)的命名实体识别模型,基于经过微调的XLM-RoBERTa large模型。它已经训练出能够识别三种类型的实体:地点(LOC)、组织(ORG)和人名(PER)。具体来说,该模型是基于10种高资源语言的xlm-roberta-large模型进行微调训练得到的。
您可以将这个模型与 Transformers 管道 一起用于命名实体识别。
注意事项和偏见该模型受限于其训练数据集,该数据集包含特定时间段内的带有实体标注的新闻文章。这可能无法很好地适用于不同领域的所有用例。
10种语言的训练数据来源如下:
训练程序由于训练数据集可以区分实体的开始和连续性,因此如果连续两个实体属于同一类型,模型可以输出第二个实体的开始位置。与数据集一样,每个标记将被分类为以下类别之一:
训练程序过程该模型使用HuggingFace代码中的推荐超参数在NVIDIA V100 GPU上进行训练。