英文

Hugging Face's logo

语言:

  • ar
  • de
  • en
  • es
  • fr
  • it
  • lv
  • nl
  • pt
  • zh
  • 多语种

xlm-roberta-large-ner-hrl

模型描述

xlm-roberta-large-ner-hrl 是一个针对10种高资源语言(阿拉伯语、德语、英语、西班牙语、法语、意大利语、拉脱维亚语、荷兰语、葡萄牙语和中文)的命名实体识别模型,基于经过微调的XLM-RoBERTa large模型。它已经训练出能够识别三种类型的实体:地点(LOC)、组织(ORG)和人名(PER)。具体来说,该模型是基于10种高资源语言的xlm-roberta-large模型进行微调训练得到的。

预期用途和限制

如何使用

您可以将这个模型与 Transformers 管道 一起用于命名实体识别。

注意事项和偏见

该模型受限于其训练数据集,该数据集包含特定时间段内的带有实体标注的新闻文章。这可能无法很好地适用于不同领域的所有用例。

训练数据

10种语言的训练数据来源如下:

训练程序

由于训练数据集可以区分实体的开始和连续性,因此如果连续两个实体属于同一类型,模型可以输出第二个实体的开始位置。与数据集一样,每个标记将被分类为以下类别之一:

训练程序过程

该模型使用HuggingFace代码中的推荐超参数在NVIDIA V100 GPU上进行训练。