数据集:

MultiCoNER/multiconer_v2

英文

多语言复杂命名实体识别数据集(MultiCoNER)数据卡片

数据集摘要

MultiCoNER的标签集是细粒度的标签集。标签的细粒度到粗粒度的映射如下:

  • 地点(LOC): 设施,其他地点,人类聚居地,车站
  • 创作作品(CW): 视觉作品,音乐作品,文学作品,艺术作品,软件
  • 组织(GRP): 音乐组织,公共公司,私营公司,航空航天制造商,体育组织,汽车制造商,组织
  • 人物(PER): 科学家,艺术家,运动员,政治家,牧师,体育经理,其他个人
  • 产品(PROD): 服装,车辆,食品,饮料,其他产品
  • 医疗(MED): 药物/疫苗,医疗程序,解剖结构,症状,疾病

支持的任务和排行榜

分享任务的最终排行榜可在 here 查看。

语言

支持的语言为孟加拉语、中文、英语、西班牙语、波斯语、法语、德语、印地语、意大利语、葡萄牙语、瑞典语、乌克兰语。

数据集结构

该数据集遵循CoNLL格式。

数据实例

这里是不同语言的一些示例:

  • 孟加拉语: [লিটল মিক্স | MusicalGrp] এ যোগদানের আগে তিনি [পিৎজা হাট | ORG] এ ওয়েট্রেস হিসাবে কাজ করেছিলেন。
  • 中文: 它的纤维穿过 [锁骨 | AnatomicalStructure] 并沿颈部侧面倾斜向上和内侧。
  • 英语: [wes anderson | Artist]'s film [the grand budapest hotel | VisualWork] opened the festival.
  • 波斯语: است] ناگویا |HumanSettlement] مرکزاین استان شهر
  • 法语: l [amiral de coligny | Politician] réussit à s y glisser .
  • 德语: in [frühgeborenes | Disease] führt dies zu [irds | Symptom] .
  • 印地语: १७९६ में उन्हें [शाही स्वीडिश विज्ञान अकादमी | Facility] का सदस्य चुना गया।
  • 意大利语: è conservato nel [rijksmuseum | Facility] di [amsterdam | HumanSettlement] .
  • 葡萄牙语: também é utilizado para se fazer [licor | Drink] e [vinhos | Drink] .
  • 西班牙语: fue superado por el [aon center | Facility] de [los ángeles | HumanSettlement] .
  • 瑞典语: [tom hamilton | Artist] amerikansk musiker basist i [aerosmith | MusicalGRP] .
  • 乌克兰语: назва альбому походить з роману « [кінець дитинства | WrittenWork] » англійського письменника [артура кларка | Artist] .

数据字段

数据有两个字段。一个是标记(token),另一个是标签(label)。以下是来自英语数据的一个示例。

# id f5458a3a-cd23-4df4-8384-4e23fe33a66b	domain=en
doris _ _ B-Artist
day _ _ I-Artist
included _ _ O
in _ _ O
the _ _ O
album _ _ O
billy _ _ B-MusicalWork
rose _ _ I-MusicalWork
's _ _ I-MusicalWork
jumbo _ _ I-MusicalWork

数据拆分

提供了训练集、验证集和测试集。

数据集创建

待定

加载数据集

from datasets import load_dataset

english_data = load_dataset('MultiCoNER/multiconer_v2', 'English (EN)')

许可信息

CC BY 4.0

引用信息

@inproceedings{multiconer2-report,
    title={{SemEval-2023 Task 2: Fine-grained Multilingual Named Entity Recognition (MultiCoNER 2)}},
    author={Fetahu, Besnik and Kar, Sudipta and Chen, Zhiyu and Rokhlenko, Oleg and Malmasi, Shervin},
    booktitle={Proceedings of the 17th International Workshop on Semantic Evaluation (SemEval-2023)},
    year={2023},
    publisher={Association for Computational Linguistics},
}

@article{multiconer2-data,
    title={{MultiCoNER v2: a Large Multilingual dataset for Fine-grained and Noisy Named Entity Recognition}},
    author={Fetahu, Besnik and Chen, Zhiyu and Kar, Sudipta and Rokhlenko, Oleg and Malmasi, Shervin},
    year={2023},
}