数据集:

joelito/legalnero

语言:

ro

计算机处理:

monolingual

大小:

10K<n<100K

语言创建人:

found

批注创建人:

other

源数据集:

original
英文

LegalNERo法律领域罗马尼亚命名实体识别数据集卡片

数据集摘要

LegalNERo是一个手动注释的罗马尼亚法律领域命名实体识别语料库。它为法律文件中提到的组织机构、地点、人物、时间和法律资源提供了黄金注释。此外,它还为标记为地点的命名实体提供了GEONAMES代码(如果可以建立链接)。

支持的任务和排行榜

该数据集支持命名实体识别任务。

语言

由于LegalNERo的法律文件来自更大的 MARCELL-RO corpus ,所以数据集中的语言是罗马尼亚语,它用于国家立法,时间跨度从1881年到2021年。

数据集结构

数据实例

文件格式是jsonl,存在三个数据划分(训练、验证和测试)。命名实体注释是非重叠的。

过滤掉只包含一个词的行(主要是诸如 \t\t\t 、 \n 或 ----- )。

数据字段

文件包含以下数据字段

  • file_name: 适用的注释文件的文件名
  • words: 经过spacy(v 3.3.1)希腊分词器处理后得到的标记列表。更多信息请参见 convert_to_hf_dataset.py 。
  • ner: ner标签列表。数据集涵盖的命名实体的标签列表如下:
    • LEGAL: 法律参考 / 资源
    • LOC: 地点
    • ORG: 组织机构
    • PER: 人物
    • TIME: 时间参考
    • O: 无实体注释

最终的标签集(使用IOB符号表示)如下: ['O', 'B-TIME', 'I-TIME', 'B-LEGAL', 'I-LEGAL', 'B-ORG', 'I-ORG', 'B-LOC', 'I-LOC', 'B-PER', 'I-PER']

数据划分

由Joel Niklaus创建的拆分。

split number of documents number of sentences
train 296 (80%) 7552
validation 37 (10%) 966
test 37 (10%) 907

数据集创建

策展理由

该数据集为罗马尼亚法律文件中提到的组织机构、地点、人员、时间和法律资源提供了黄金注释。

源数据

初始数据收集和规范化

LegalNERo语料库由来自大型 MARCELL-RO corpus 的370个文档组成。以下是MARCELL-RO语料库的爬取过程的简要描述。

MARCELL-RO语料库“包含163,274个文件,代表从1881年到2021年的国家立法。这个语料库主要包括:政府决策、部长指令、决策、法令和法律。所有文本都是通过从公开的罗马尼亚法规门户网站进行爬行获得的。我们没有区分“生效”和“失效”法律,因为难以自动完成此操作,并且没有外部资源可供我们区分它们。这些文本从原始HTML格式转换为TXT文件。每个文件都有多个层次的注释:首先使用罗马尼亚科学院人工智能研究所(RACAI)开发的标记、标记和词干化(TTL)文本处理平台对文本进行标记、标记和词干化处理,然后使用NLP-Cube进行依赖解析,使用RACAI开发的NER工具识别命名实体,使用TTL还识别命名短语,而使用内部工具识别IATE术语和EuroVoc描述符。所有处理工具都集成到RELATE平台的端到端流水线中,并作为docker版本提供。文档是使用MARCELL项目的第4个活动中完成的最新版本流水线进行注释的。” Link

谁是源语言的生产者?

源语言的生产者可能是政治家和律师。

注释

注释过程

“LegalNERo语料库的注释是由罗马尼亚科学院人工智能研究所(RACAI)的两位高级研究员监督下的5位人类注释员进行的。为了进行注释,我们使用了BRAT工具4[...]在法律参考类别内,我们考虑了组织机构和时间的子实体。这允许使用LegalNERo语料库进行两种场景:使用所有5个实体类别或仅使用其余的通用类别。LegalNERo语料库包含来自更大的MARCELL-RO语料库的共计370个文档。这些文档分配给了5位注释者,其中某些文档由多位注释者注释。每个注释者手动注释了100个文档。注释者对重叠部分不知情,这使我们能够计算出注释者一致性。我们使用了Cohen's Kappa度量标准,获得了0.89的值,我们认为这是一个很好的结果。”(Pais等人,2021)

谁是注释者?

“[...] 5位人类注释员,由罗马尼亚科学院人工智能研究所(RACAI)的两位高级研究员监督。”

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

请注意,此数据集卡中给出的信息是指由Joel Niklaus和Veton Matoshi提供的数据集版本。手头上的数据集旨在成为一个更大的基准数据集的一部分。创建一个由不同来源的几个其他数据集组成的基准数据集需要进行后处理。因此,手头上的数据集结构,包括文件夹结构,可能与原始数据集大不相同。此外,可以预期与各个论文中给出的数据集统计数据的差异。建议读者查看 convert_to_hf_dataset.py 中的转换脚本,以追溯将原始数据集转换为当前jsonl格式的步骤。有关原始数据集结构的更多信息,请参阅本数据集卡片中提供的引文和原始GitHub存储库和/或网页。

附加信息

数据集策展员

原始数据集策展员和创建者的姓名可以在下面的参考资料中找到,见 引文信息 一节。由Joel Niklaus( 电子邮件 ; Github )和Veton Matoshi( 电子邮件 ; Github )做了进一步的更改。

许可信息

Creative Commons Attribution Non Commercial No Derivatives 4.0 International

引文信息

@dataset{pais_vasile_2021_4922385,
  author       = {Păiș, Vasile and
                  Mitrofan, Maria and
                  Gasan, Carol Luca and
                  Ianov, Alexandru and
                  Ghiță, Corvin and
                  Coneschi, Vlad Silviu and
                  Onuț, Andrei},
  title        = {{Romanian Named Entity Recognition in the Legal 
                   domain (LegalNERo)}},
  month        = may,
  year         = 2021,
  publisher    = {Zenodo},
  doi          = {10.5281/zenodo.4922385},
  url          = {https://doi.org/10.5281/zenodo.4922385}
}
@inproceedings{pais-etal-2021-named,
  author = {Pais, Vasile and Mitrofan, Maria and Gasan, Carol Luca and Coneschi, Vlad and Ianov, Alexandru},
  booktitle = {Proceedings of the Natural Legal Language Processing Workshop 2021},
  doi = {10.18653/v1/2021.nllp-1.2},
  month = {nov},
  pages = {9--18},
  publisher = {Association for Computational Linguistics},
  title = {{Named Entity Recognition in the {R}omanian Legal Domain}},
  url = {https://aclanthology.org/2021.nllp-1.2},
  year = {2021}
}

贡献

感谢 @JoelNiklaus @kapllan 添加了这个数据集。