数据集:

ronec

任务:

标记分类

子任务:

named-entity-recognition

语言:

计算机处理:

monolingual

大小:

1K<n<10K

语言创建人:

expert-generated found

批注创建人:

expert-generated

源数据集:

original

预印本库:

arxiv:1909.01247

许可:

mit

数据集介绍文件清单

英文

RONEC数据集卡片

数据集简介

在2.0版本中，RONEC拥有12330个句子，超过0.5百万个标记，标注了15个类别的80.283个不同标记实体。

该语料库在训练/验证/测试集中的类别和分布如下：

| 类别 | 总数 | 训练 | | 验证 | | 测试 | ||--------------|------- | ------|------- | ------|------- | ------|------- || 人员 | 26130 | 19167 | 73.35 | 2733 | 10.46 | 4230 | 16.19 || 政治地理实体 | 11103 | 8193 | 73.79 | 1182 | 10.65 | 1728 | 15.56 || 定位 | 2467 | 1824 | 73.94 | 270 | 10.94 | 373 | 15.12 || 组织 | 7880 | 5688 | 72.18 | 880 | 11.17 | 1312 | 16.65 || 语言 | 467 | 342 | 73.23 | 52 | 11.13 | 73 | 15.63 || 民族宗教政治 | 4970 | 3673 | 73.90 | 516 | 10.38 | 781 | 15.71 || 日期时间 | 9614 | 6960 | 72.39 | 1029 | 10.70 | 1625 | 16.90 || 期间 | 1188 | 862 | 72.56 | 129 | 10.86 | 197 | 16.58 || 数量 | 1588 | 1161 | 73.11 | 181 | 11.40 | 246 | 15.49 || 货币 | 1424 | 1041 | 73.10 | 159 | 11.17 | 224 | 15.73 || 数字 | 7735 | 5734 | 74.13 | 814 | 10.52 | 1187 | 15.35 || 顺序 | 1893 | 1377 | 72.74 | 212 | 11.20 | 304 | 16.06 || 设施 | 1126 | 840 | 74.60 | 113 | 10.04 | 173 | 15.36 || 艺术品 | 1596 | 1157 | 72.49 | 176 | 11.03 | 263 | 16.48 || 事件 | 1102 | 826 | 74.95 | 107 | 9.71 | 169 | 15.34 |

支持的任务和排行榜

该语料库旨在训练用于罗马尼亚语的命名实体识别模型。

请在此处查看排行榜： https://lirobenchmark.github.io/

语言

RONEC使用罗马尼亚语（ro）

数据集结构

数据实例

数据集是一个实例列表。例如，一个实例的样子如下：

{
  "id": 10454,
  "tokens": ["Pentru", "a", "vizita", "locația", "care", "va", "fi", "pusă", "la", "dispoziția", "reprezentanților", "consiliilor", "județene", ",", "o", "delegație", "a", "U.N.C.J.R.", ",", "din", "care", "a", "făcut", "parte", "și", "dl", "Constantin", "Ostaficiuc", ",", "președintele", "C.J.T.", ",", "a", "fost", "prezentă", "la", "Bruxelles", ",", "între", "1-3", "martie", "."], 
  "ner_tags": ["O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "B-PERSON", "O", "O", "O", "O", "O", "O", "B-ORG", "O", "O", "O", "O", "O", "O", "O", "B-PERSON", "I-PERSON", "I-PERSON", "I-PERSON", "I-PERSON", "B-ORG", "O", "O", "O", "O", "O", "B-GPE", "O", "B-PERIOD", "I-PERIOD", "I-PERIOD", "O"], 
  "ner_ids": [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 3, 0, 0, 0, 0, 0, 0, 0, 1, 2, 2, 2, 2, 3, 0, 0, 0, 0, 0, 5, 0, 19, 20, 20, 0], 
  "space_after": [true, true, true, true, true, true, true, true, true, true, true, true, false, true, true, true, true, false, true, true, true, true, true, true, true, true, true, false, true, true, false, true, true, true, true, true, false, true, true, true, false, false]
}

数据字段

每个示例的字段如下：

tokens是句子中的单词。
ner_tags 是分配给每个令牌的字符串标签，遵循BIO2格式。例如，跨度“între”，“1-3”，“martie”有三个令牌，但是是一个单一类别PERIOD，标记为“B-PERIOD”，“I-PERIOD”，“I-PERIOD”。
ner_ids是每个标签的整数编码，以与标准兼容并快速用于模型训练。注意，每个B-开始标记都是奇数，每个I-开始标记都是偶数。
space_after 用于帮助如果需要对数据集进行解标记。true表示在该位置的令牌后有一个空格。

数据拆分

数据集分为训练集：9000个句子，开发集：1330个句子，测试集：2000个句子。

数据集创建

策划理由

[需要更多信息]

源数据

语料库数据源来自不受版权限制的句子，取自免费可用的SEETimes等较早的数据集以及近期的数据源，如罗马尼亚维基百科或Common Crawl。

初始数据收集和归一化

[需要更多信息]

源语言制作者是谁？

[需要更多信息]

注释

该语料库以以下类别进行了标注：

人员 - 专有名词，包括如果他们指代人的普通名词或代词。（例如 'sister'）

政治地理实体 - 城市或国家等地理政治实体；必须具有一种管理形式

位置 - 海洋、大陆、地区、道路、地址等位置。

组织 - 组织机构

语言 - 语言（例如罗马尼亚语、法语等）

民族宗教政治 - 国家、宗教或政治组织

日期时间 - 以任何格式表示的时间和日期，包括对时间的引用（例如'昨天'）

期间 - 由两个日期时间精确界定的期间

数量 - 一个不是数字的数量；它有一个计量单位

货币 - 数值或其他货币值

数字 - 一个简单的数值，表示为数字或单词

顺序 - 像'第一'、'第三'之类的序数值

设施 - 一个易于识别的命名地点

艺术品 - 调用的艺术品，如电视节目、绘画等

事件 - 一个命名的可识别或定期的重大事件

注释过程

该语料库由3名语言专家进行了注释，并进行了注释一致性的交叉检查。注释过程历时数月，但结果是一个高质量的数据集。

注释者是谁？

Stefan Dumitrescu（首席）

个人和敏感信息

所有的源数据都已经可以在网上免费下载和使用，因此没有隐私问题。

使用数据的注意事项

数据集的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集创建者

[需要更多信息]

许可信息

MIT许可证

引用信息

@article{dumitrescu2019introducing,
  title={Introducing RONEC--the Romanian Named Entity Corpus},
  author={Dumitrescu, Stefan Daniel and Avram, Andrei-Marius},
  journal={arXiv preprint arXiv:1909.01247},
  year={2019}
}

贡献

感谢 @iliemihai 添加v1.0的数据集。

作者:

佚名

数据集大小:

19.67 KB