英文

Hugging Face的Logo

语言:

  • ar
  • as
  • bn
  • ca
  • en
  • es
  • eu
  • fr
  • gu
  • hi
  • id
  • ig
  • mr
  • pa
  • pt
  • sw
  • ur
  • vi
  • yo
  • zh
  • multilingual

数据集:

  • wikiann

xlm-roberta-base-wikiann-ner

模型描述

xlm-roberta-base-wikiann-ner 是第一个支持20种语言(阿拉伯语、阿萨姆语、孟加拉语、加泰罗尼亚语、英语、西班牙语、巴斯克语、法语、古吉拉特语、印地语、印度尼西亚语、伊博语、马拉语、旁遮普语、葡萄牙语、斯瓦希里语、乌尔都语、越南语、约鲁巴语、中文)的命名实体识别模型。该模型基于经过精调的XLM-RoBERTa大模型,并取得了NER任务的最新成果。它已经训练好了识别三种类型的实体: 地点 (LOC)、组织 (ORG) 和人物 (PER)。具体而言,该模型是一个xlm-roberta-large模型,它是在从 WikiANN 个数据集获取的语言数据集的聚合上进行了精调。

目标用途和限制

如何使用

您可以使用Transformers库的管道(pipeline)进行命名实体识别。

from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline
tokenizer = AutoTokenizer.from_pretrained("xlm-roberta-base-wikiann-ner")
model = AutoModelForTokenClassification.from_pretrained("xlm-roberta-base-wikiann-ner")
nlp = pipeline("ner", model=model, tokenizer=tokenizer)
example = "Ìbọn ń ró kù kù gẹ́gẹ́ bí ọwọ́ ọ̀pọ̀ aráàlù ṣe tẹ ìbọn ní Kyiv láti dojú kọ Russia"
ner_results = nlp(example)
print(ner_results)
限制和偏差

该模型的训练数据集仅限于某个具体时间段的实体注释新闻文章。因此,该模型可能在不同领域的所有用例中无法很好地泛化。

训练数据

该模型是在20个命名实体识别数据集(阿拉伯语、阿萨姆语、孟加拉语、加泰罗尼亚语、英语、西班牙语、巴斯克语、法语、古吉拉特语、印地语、印度尼西亚语、伊博语、马拉语、旁遮普语、葡萄牙语、斯瓦希里语、乌尔都语、越南语、约鲁巴语、中文)的基础上进行精调的。

训练数据集区分了实体的开始和连续性,因此如果存在连续的相同类型实体,模型可以输出第二个实体的开始位置。与数据集一样,每个标记将被分类为以下类别之一:

Abbreviation Description
O Outside of a named entity
B-PER Beginning of a person’s name right after another person’s name
I-PER Person’s name
B-ORG Beginning of an organisation right after another organisation
I-ORG Organisation
B-LOC Beginning of a location right after another location
I-LOC Location

BibTeX条目和引用信息