多语言复杂命名实体识别数据集（MultiCoNER）数据卡片

数据集摘要

MultiCoNER的标签集是细粒度的标签集。标签的细粒度到粗粒度的映射如下：

地点（LOC）: 设施，其他地点，人类聚居地，车站
创作作品（CW）: 视觉作品，音乐作品，文学作品，艺术作品，软件
组织（GRP）: 音乐组织，公共公司，私营公司，航空航天制造商，体育组织，汽车制造商，组织
人物（PER）: 科学家，艺术家，运动员，政治家，牧师，体育经理，其他个人
产品（PROD）: 服装，车辆，食品，饮料，其他产品
医疗（MED）: 药物/疫苗，医疗程序，解剖结构，症状，疾病

支持的任务和排行榜

分享任务的最终排行榜可在 here 查看。

语言

支持的语言为孟加拉语、中文、英语、西班牙语、波斯语、法语、德语、印地语、意大利语、葡萄牙语、瑞典语、乌克兰语。

数据集结构

该数据集遵循CoNLL格式。

数据实例

这里是不同语言的一些示例：

孟加拉语: [লিটল মিক্স | MusicalGrp] এ যোগদানের আগে তিনি [পিৎজা হাট | ORG] এ ওয়েট্রেস হিসাবে কাজ করেছিলেন。
中文: 它的纤维穿过 [锁骨 | AnatomicalStructure] 并沿颈部侧面倾斜向上和内侧。
英语: [wes anderson | Artist]'s film [the grand budapest hotel | VisualWork] opened the festival.
波斯语: است] ناگویا |HumanSettlement] مرکزاین استان شهر
法语: l [amiral de coligny | Politician] réussit à s y glisser .
德语: in [frühgeborenes | Disease] führt dies zu [irds | Symptom] .
印地语: १७९६ में उन्हें [शाही स्वीडिश विज्ञान अकादमी | Facility] का सदस्य चुना गया।
意大利语: è conservato nel [rijksmuseum | Facility] di [amsterdam | HumanSettlement] .
葡萄牙语: também é utilizado para se fazer [licor | Drink] e [vinhos | Drink] .
西班牙语: fue superado por el [aon center | Facility] de [los ángeles | HumanSettlement] .
瑞典语: [tom hamilton | Artist] amerikansk musiker basist i [aerosmith | MusicalGRP] .
乌克兰语: назва альбому походить з роману « [кінець дитинства | WrittenWork] » англійського письменника [артура кларка | Artist] .

数据字段

数据有两个字段。一个是标记（token），另一个是标签（label）。以下是来自英语数据的一个示例。

# id f5458a3a-cd23-4df4-8384-4e23fe33a66b	domain=en
doris _ _ B-Artist
day _ _ I-Artist
included _ _ O
in _ _ O
the _ _ O
album _ _ O
billy _ _ B-MusicalWork
rose _ _ I-MusicalWork
's _ _ I-MusicalWork
jumbo _ _ I-MusicalWork

数据拆分

提供了训练集、验证集和测试集。

数据集创建

待定

加载数据集

from datasets import load_dataset

english_data = load_dataset('MultiCoNER/multiconer_v2', 'English (EN)')

许可信息

CC BY 4.0

引用信息

@inproceedings{multiconer2-report,
    title={{SemEval-2023 Task 2: Fine-grained Multilingual Named Entity Recognition (MultiCoNER 2)}},
    author={Fetahu, Besnik and Kar, Sudipta and Chen, Zhiyu and Rokhlenko, Oleg and Malmasi, Shervin},
    booktitle={Proceedings of the 17th International Workshop on Semantic Evaluation (SemEval-2023)},
    year={2023},
    publisher={Association for Computational Linguistics},
}

@article{multiconer2-data,
    title={{MultiCoNER v2: a Large Multilingual dataset for Fine-grained and Noisy Named Entity Recognition}},
    author={Fetahu, Besnik and Chen, Zhiyu and Kar, Sudipta and Rokhlenko, Oleg and Malmasi, Shervin},
    year={2023},
}

作者:

MultiCoNER

数据集大小:

696.19 MB