数据集:
ronec
任务:
标记分类语言:
ro计算机处理:
monolingual大小:
1K<n<10K批注创建人:
expert-generated源数据集:
original预印本库:
arxiv:1909.01247许可:
mit在2.0版本中,RONEC拥有12330个句子,超过0.5百万个标记,标注了15个类别的80.283个不同标记实体。
该语料库在训练/验证/测试集中的类别和分布如下:
| 类别 | 总数 | 训练 | | 验证 | | 测试 | ||--------------|------- | ------|------- | ------|------- | ------|------- || 人员 | 26130 | 19167 | 73.35 | 2733 | 10.46 | 4230 | 16.19 || 政治地理实体 | 11103 | 8193 | 73.79 | 1182 | 10.65 | 1728 | 15.56 || 定位 | 2467 | 1824 | 73.94 | 270 | 10.94 | 373 | 15.12 || 组织 | 7880 | 5688 | 72.18 | 880 | 11.17 | 1312 | 16.65 || 语言 | 467 | 342 | 73.23 | 52 | 11.13 | 73 | 15.63 || 民族宗教政治 | 4970 | 3673 | 73.90 | 516 | 10.38 | 781 | 15.71 || 日期时间 | 9614 | 6960 | 72.39 | 1029 | 10.70 | 1625 | 16.90 || 期间 | 1188 | 862 | 72.56 | 129 | 10.86 | 197 | 16.58 || 数量 | 1588 | 1161 | 73.11 | 181 | 11.40 | 246 | 15.49 || 货币 | 1424 | 1041 | 73.10 | 159 | 11.17 | 224 | 15.73 || 数字 | 7735 | 5734 | 74.13 | 814 | 10.52 | 1187 | 15.35 || 顺序 | 1893 | 1377 | 72.74 | 212 | 11.20 | 304 | 16.06 || 设施 | 1126 | 840 | 74.60 | 113 | 10.04 | 173 | 15.36 || 艺术品 | 1596 | 1157 | 72.49 | 176 | 11.03 | 263 | 16.48 || 事件 | 1102 | 826 | 74.95 | 107 | 9.71 | 169 | 15.34 |
该语料库旨在训练用于罗马尼亚语的命名实体识别模型。
请在此处查看排行榜: https://lirobenchmark.github.io/
RONEC使用罗马尼亚语(ro)
数据集是一个实例列表。例如,一个实例的样子如下:
{ "id": 10454, "tokens": ["Pentru", "a", "vizita", "locația", "care", "va", "fi", "pusă", "la", "dispoziția", "reprezentanților", "consiliilor", "județene", ",", "o", "delegație", "a", "U.N.C.J.R.", ",", "din", "care", "a", "făcut", "parte", "și", "dl", "Constantin", "Ostaficiuc", ",", "președintele", "C.J.T.", ",", "a", "fost", "prezentă", "la", "Bruxelles", ",", "între", "1-3", "martie", "."], "ner_tags": ["O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "B-PERSON", "O", "O", "O", "O", "O", "O", "B-ORG", "O", "O", "O", "O", "O", "O", "O", "B-PERSON", "I-PERSON", "I-PERSON", "I-PERSON", "I-PERSON", "B-ORG", "O", "O", "O", "O", "O", "B-GPE", "O", "B-PERIOD", "I-PERIOD", "I-PERIOD", "O"], "ner_ids": [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 3, 0, 0, 0, 0, 0, 0, 0, 1, 2, 2, 2, 2, 3, 0, 0, 0, 0, 0, 5, 0, 19, 20, 20, 0], "space_after": [true, true, true, true, true, true, true, true, true, true, true, true, false, true, true, true, true, false, true, true, true, true, true, true, true, true, true, false, true, true, false, true, true, true, true, true, false, true, true, true, false, false] }
每个示例的字段如下:
数据集分为训练集:9000个句子,开发集:1330个句子,测试集:2000个句子。
[需要更多信息]
语料库数据源来自不受版权限制的句子,取自免费可用的SEETimes等较早的数据集以及近期的数据源,如罗马尼亚维基百科或Common Crawl。
初始数据收集和归一化[需要更多信息]
源语言制作者是谁?[需要更多信息]
该语料库以以下类别进行了标注:
该语料库由3名语言专家进行了注释,并进行了注释一致性的交叉检查。注释过程历时数月,但结果是一个高质量的数据集。
注释者是谁?Stefan Dumitrescu(首席)
所有的源数据都已经可以在网上免费下载和使用,因此没有隐私问题。
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
MIT许可证
@article{dumitrescu2019introducing, title={Introducing RONEC--the Romanian Named Entity Corpus}, author={Dumitrescu, Stefan Daniel and Avram, Andrei-Marius}, journal={arXiv preprint arXiv:1909.01247}, year={2019} }
感谢 @iliemihai 添加v1.0的数据集。