数据集:
MultiCoNER/multiconer_v2
MultiCoNER的标签集是细粒度的标签集。标签的细粒度到粗粒度的映射如下:
分享任务的最终排行榜可在 here 查看。
支持的语言为孟加拉语、中文、英语、西班牙语、波斯语、法语、德语、印地语、意大利语、葡萄牙语、瑞典语、乌克兰语。
该数据集遵循CoNLL格式。
这里是不同语言的一些示例:
数据有两个字段。一个是标记(token),另一个是标签(label)。以下是来自英语数据的一个示例。
# id f5458a3a-cd23-4df4-8384-4e23fe33a66b domain=en doris _ _ B-Artist day _ _ I-Artist included _ _ O in _ _ O the _ _ O album _ _ O billy _ _ B-MusicalWork rose _ _ I-MusicalWork 's _ _ I-MusicalWork jumbo _ _ I-MusicalWork
提供了训练集、验证集和测试集。
待定
from datasets import load_dataset english_data = load_dataset('MultiCoNER/multiconer_v2', 'English (EN)')
CC BY 4.0
@inproceedings{multiconer2-report, title={{SemEval-2023 Task 2: Fine-grained Multilingual Named Entity Recognition (MultiCoNER 2)}}, author={Fetahu, Besnik and Kar, Sudipta and Chen, Zhiyu and Rokhlenko, Oleg and Malmasi, Shervin}, booktitle={Proceedings of the 17th International Workshop on Semantic Evaluation (SemEval-2023)}, year={2023}, publisher={Association for Computational Linguistics}, } @article{multiconer2-data, title={{MultiCoNER v2: a Large Multilingual dataset for Fine-grained and Noisy Named Entity Recognition}}, author={Fetahu, Besnik and Chen, Zhiyu and Kar, Sudipta and Rokhlenko, Oleg and Malmasi, Shervin}, year={2023}, }