数据集:

ronec

语言:

ro

计算机处理:

monolingual

大小:

1K<n<10K

批注创建人:

expert-generated

源数据集:

original

预印本库:

arxiv:1909.01247

许可:

mit
英文

RONEC数据集卡片

数据集简介

在2.0版本中,RONEC拥有12330个句子,超过0.5百万个标记,标注了15个类别的80.283个不同标记实体。

该语料库在训练/验证/测试集中的类别和分布如下:

| 类别 | 总数 | 训练 | | 验证 | | 测试 | ||--------------|------- | ------|------- | ------|------- | ------|------- || 人员 | 26130 | 19167 | 73.35 | 2733 | 10.46 | 4230 | 16.19 || 政治地理实体 | 11103 | 8193 | 73.79 | 1182 | 10.65 | 1728 | 15.56 || 定位 | 2467 | 1824 | 73.94 | 270 | 10.94 | 373 | 15.12 || 组织 | 7880 | 5688 | 72.18 | 880 | 11.17 | 1312 | 16.65 || 语言 | 467 | 342 | 73.23 | 52 | 11.13 | 73 | 15.63 || 民族宗教政治 | 4970 | 3673 | 73.90 | 516 | 10.38 | 781 | 15.71 || 日期时间 | 9614 | 6960 | 72.39 | 1029 | 10.70 | 1625 | 16.90 || 期间 | 1188 | 862 | 72.56 | 129 | 10.86 | 197 | 16.58 || 数量 | 1588 | 1161 | 73.11 | 181 | 11.40 | 246 | 15.49 || 货币 | 1424 | 1041 | 73.10 | 159 | 11.17 | 224 | 15.73 || 数字 | 7735 | 5734 | 74.13 | 814 | 10.52 | 1187 | 15.35 || 顺序 | 1893 | 1377 | 72.74 | 212 | 11.20 | 304 | 16.06 || 设施 | 1126 | 840 | 74.60 | 113 | 10.04 | 173 | 15.36 || 艺术品 | 1596 | 1157 | 72.49 | 176 | 11.03 | 263 | 16.48 || 事件 | 1102 | 826 | 74.95 | 107 | 9.71 | 169 | 15.34 |

支持的任务和排行榜

该语料库旨在训练用于罗马尼亚语的命名实体识别模型。

请在此处查看排行榜: https://lirobenchmark.github.io/

语言

RONEC使用罗马尼亚语(ro)

数据集结构

数据实例

数据集是一个实例列表。例如,一个实例的样子如下:

{
  "id": 10454,
  "tokens": ["Pentru", "a", "vizita", "locația", "care", "va", "fi", "pusă", "la", "dispoziția", "reprezentanților", "consiliilor", "județene", ",", "o", "delegație", "a", "U.N.C.J.R.", ",", "din", "care", "a", "făcut", "parte", "și", "dl", "Constantin", "Ostaficiuc", ",", "președintele", "C.J.T.", ",", "a", "fost", "prezentă", "la", "Bruxelles", ",", "între", "1-3", "martie", "."], 
  "ner_tags": ["O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "B-PERSON", "O", "O", "O", "O", "O", "O", "B-ORG", "O", "O", "O", "O", "O", "O", "O", "B-PERSON", "I-PERSON", "I-PERSON", "I-PERSON", "I-PERSON", "B-ORG", "O", "O", "O", "O", "O", "B-GPE", "O", "B-PERIOD", "I-PERIOD", "I-PERIOD", "O"], 
  "ner_ids": [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 3, 0, 0, 0, 0, 0, 0, 0, 1, 2, 2, 2, 2, 3, 0, 0, 0, 0, 0, 5, 0, 19, 20, 20, 0], 
  "space_after": [true, true, true, true, true, true, true, true, true, true, true, true, false, true, true, true, true, false, true, true, true, true, true, true, true, true, true, false, true, true, false, true, true, true, true, true, false, true, true, true, false, false]
}

数据字段

每个示例的字段如下:

  • tokens是句子中的单词。
  • ner_tags 是分配给每个令牌的字符串标签,遵循BIO2格式。例如,跨度“între”,“1-3”,“martie”有三个令牌,但是是一个单一类别PERIOD,标记为“B-PERIOD”,“I-PERIOD”,“I-PERIOD”。
  • ner_ids是每个标签的整数编码,以与标准兼容并快速用于模型训练。注意,每个B-开始标记都是奇数,每个I-开始标记都是偶数。
  • space_after 用于帮助如果需要对数据集进行解标记。true表示在该位置的令牌后有一个空格。

数据拆分

数据集分为训练集:9000个句子,开发集:1330个句子,测试集:2000个句子。

数据集创建

策划理由

[需要更多信息]

源数据

语料库数据源来自不受版权限制的句子,取自免费可用的SEETimes等较早的数据集以及近期的数据源,如罗马尼亚维基百科或Common Crawl。

初始数据收集和归一化

[需要更多信息]

源语言制作者是谁?

[需要更多信息]

注释

该语料库以以下类别进行了标注:

  • 人员 - 专有名词,包括如果他们指代人的普通名词或代词。(例如 'sister')
  • 政治地理实体 - 城市或国家等地理政治实体;必须具有一种管理形式
  • 位置 - 海洋、大陆、地区、道路、地址等位置。
  • 组织 - 组织机构
  • 语言 - 语言(例如罗马尼亚语、法语等)
  • 民族宗教政治 - 国家、宗教或政治组织
  • 日期时间 - 以任何格式表示的时间和日期,包括对时间的引用(例如'昨天')
  • 期间 - 由两个日期时间精确界定的期间
  • 数量 - 一个不是数字的数量;它有一个计量单位
  • 货币 - 数值或其他货币值
  • 数字 - 一个简单的数值,表示为数字或单词
  • 顺序 - 像'第一'、'第三'之类的序数值
  • 设施 - 一个易于识别的命名地点
  • 艺术品 - 调用的艺术品,如电视节目、绘画等
  • 事件 - 一个命名的可识别或定期的重大事件
  • 注释过程

    该语料库由3名语言专家进行了注释,并进行了注释一致性的交叉检查。注释过程历时数月,但结果是一个高质量的数据集。

    注释者是谁?

    Stefan Dumitrescu(首席)

    个人和敏感信息

    所有的源数据都已经可以在网上免费下载和使用,因此没有隐私问题。

    使用数据的注意事项

    数据集的社会影响

    [需要更多信息]

    偏见讨论

    [需要更多信息]

    其他已知限制

    [需要更多信息]

    其他信息

    数据集创建者

    [需要更多信息]

    许可信息

    MIT许可证

    引用信息

    @article{dumitrescu2019introducing,
      title={Introducing RONEC--the Romanian Named Entity Corpus},
      author={Dumitrescu, Stefan Daniel and Avram, Andrei-Marius},
      journal={arXiv preprint arXiv:1909.01247},
      year={2019}
    }
    

    贡献

    感谢 @iliemihai 添加v1.0的数据集。