数据集:
DFKI-SLT/few-nerd
任务:
标记分类语言:
en计算机处理:
monolingual大小:
100K<n<1M语言创建人:
found批注创建人:
expert-generated源数据集:
extended|wikipedia许可:
cc-by-sa-4.0此脚本用于从 https://ningding97.github.io/fewnerd/ 加载 Few-NERD 数据集。
Few-NERD 是一个大规模,细粒度手动注释的命名实体识别数据集,包括 8 个粗粒度类型,66 个细粒度类型,188,200 个句子,491,711 个实体和 4,601,223 个标记。构建了三个基准任务,一个是监督式(Few-NERD (SUP)),另外两个是少样本学习(Few-NERD (INTRA) 和 Few-NERD (INTER))。
NER 标签使用 IO 标记方案。原始数据使用两列 CoNLL 风格的格式,句子之间用空行分隔。由于句子是随机排序的,没有提供 DOCSTART 信息。
详情请参阅 https://ningding97.github.io/fewnerd/ 和 https://aclanthology.org/2021.acl-long.248/ 。
英语
下载的数据集文件大小:
生成的数据集大小:
使用的总磁盘空间:366.8 MB
'train' 的示例如下所示。
{ 'id': '1', 'tokens': ['It', 'starred', 'Hicks', "'s", 'wife', ',', 'Ellaline', 'Terriss', 'and', 'Edmund', 'Payne', '.'], 'ner_tags': [0, 0, 7, 0, 0, 0, 7, 7, 0, 7, 7, 0], 'fine_ner_tags': [0, 0, 51, 0, 0, 0, 50, 50, 0, 50, 50, 0] }
所有拆分的数据字段都相同。
Task | Train | Dev | Test |
---|---|---|---|
SUP | 131767 | 18824 | 37648 |
INTRA | 99519 | 19358 | 44059 |
INTER | 130112 | 18817 | 14007 |
@inproceedings{ding-etal-2021-nerd, title = "Few-{NERD}: A Few-shot Named Entity Recognition Dataset", author = "Ding, Ning and Xu, Guangwei and Chen, Yulin and Wang, Xiaobin and Han, Xu and Xie, Pengjun and Zheng, Haitao and Liu, Zhiyuan", booktitle = "Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers)", month = aug, year = "2021", address = "Online", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2021.acl-long.248", doi = "10.18653/v1/2021.acl-long.248", pages = "3198--3213", }