数据集:
joelito/legalnero
任务:
标记分类语言:
ro计算机处理:
monolingual大小:
10K<n<100K语言创建人:
found批注创建人:
other源数据集:
original许可:
cc-by-nc-nd-4.0LegalNERo是一个手动注释的罗马尼亚法律领域命名实体识别语料库。它为法律文件中提到的组织机构、地点、人物、时间和法律资源提供了黄金注释。此外,它还为标记为地点的命名实体提供了GEONAMES代码(如果可以建立链接)。
该数据集支持命名实体识别任务。
由于LegalNERo的法律文件来自更大的 MARCELL-RO corpus ,所以数据集中的语言是罗马尼亚语,它用于国家立法,时间跨度从1881年到2021年。
文件格式是jsonl,存在三个数据划分(训练、验证和测试)。命名实体注释是非重叠的。
过滤掉只包含一个词的行(主要是诸如 \t\t\t 、 \n 或 ----- )。
文件包含以下数据字段
最终的标签集(使用IOB符号表示)如下: ['O', 'B-TIME', 'I-TIME', 'B-LEGAL', 'I-LEGAL', 'B-ORG', 'I-ORG', 'B-LOC', 'I-LOC', 'B-PER', 'I-PER']
由Joel Niklaus创建的拆分。
split | number of documents | number of sentences |
---|---|---|
train | 296 (80%) | 7552 |
validation | 37 (10%) | 966 |
test | 37 (10%) | 907 |
该数据集为罗马尼亚法律文件中提到的组织机构、地点、人员、时间和法律资源提供了黄金注释。
LegalNERo语料库由来自大型 MARCELL-RO corpus 的370个文档组成。以下是MARCELL-RO语料库的爬取过程的简要描述。
MARCELL-RO语料库“包含163,274个文件,代表从1881年到2021年的国家立法。这个语料库主要包括:政府决策、部长指令、决策、法令和法律。所有文本都是通过从公开的罗马尼亚法规门户网站进行爬行获得的。我们没有区分“生效”和“失效”法律,因为难以自动完成此操作,并且没有外部资源可供我们区分它们。这些文本从原始HTML格式转换为TXT文件。每个文件都有多个层次的注释:首先使用罗马尼亚科学院人工智能研究所(RACAI)开发的标记、标记和词干化(TTL)文本处理平台对文本进行标记、标记和词干化处理,然后使用NLP-Cube进行依赖解析,使用RACAI开发的NER工具识别命名实体,使用TTL还识别命名短语,而使用内部工具识别IATE术语和EuroVoc描述符。所有处理工具都集成到RELATE平台的端到端流水线中,并作为docker版本提供。文档是使用MARCELL项目的第4个活动中完成的最新版本流水线进行注释的。” Link
谁是源语言的生产者?源语言的生产者可能是政治家和律师。
“LegalNERo语料库的注释是由罗马尼亚科学院人工智能研究所(RACAI)的两位高级研究员监督下的5位人类注释员进行的。为了进行注释,我们使用了BRAT工具4[...]在法律参考类别内,我们考虑了组织机构和时间的子实体。这允许使用LegalNERo语料库进行两种场景:使用所有5个实体类别或仅使用其余的通用类别。LegalNERo语料库包含来自更大的MARCELL-RO语料库的共计370个文档。这些文档分配给了5位注释者,其中某些文档由多位注释者注释。每个注释者手动注释了100个文档。注释者对重叠部分不知情,这使我们能够计算出注释者一致性。我们使用了Cohen's Kappa度量标准,获得了0.89的值,我们认为这是一个很好的结果。”(Pais等人,2021)
谁是注释者?“[...] 5位人类注释员,由罗马尼亚科学院人工智能研究所(RACAI)的两位高级研究员监督。”
[需要更多信息]
[需要更多信息]
[需要更多信息]
请注意,此数据集卡中给出的信息是指由Joel Niklaus和Veton Matoshi提供的数据集版本。手头上的数据集旨在成为一个更大的基准数据集的一部分。创建一个由不同来源的几个其他数据集组成的基准数据集需要进行后处理。因此,手头上的数据集结构,包括文件夹结构,可能与原始数据集大不相同。此外,可以预期与各个论文中给出的数据集统计数据的差异。建议读者查看 convert_to_hf_dataset.py 中的转换脚本,以追溯将原始数据集转换为当前jsonl格式的步骤。有关原始数据集结构的更多信息,请参阅本数据集卡片中提供的引文和原始GitHub存储库和/或网页。
原始数据集策展员和创建者的姓名可以在下面的参考资料中找到,见 引文信息 一节。由Joel Niklaus( 电子邮件 ; Github )和Veton Matoshi( 电子邮件 ; Github )做了进一步的更改。
Creative Commons Attribution Non Commercial No Derivatives 4.0 International
@dataset{pais_vasile_2021_4922385, author = {Păiș, Vasile and Mitrofan, Maria and Gasan, Carol Luca and Ianov, Alexandru and Ghiță, Corvin and Coneschi, Vlad Silviu and Onuț, Andrei}, title = {{Romanian Named Entity Recognition in the Legal domain (LegalNERo)}}, month = may, year = 2021, publisher = {Zenodo}, doi = {10.5281/zenodo.4922385}, url = {https://doi.org/10.5281/zenodo.4922385} }
@inproceedings{pais-etal-2021-named, author = {Pais, Vasile and Mitrofan, Maria and Gasan, Carol Luca and Coneschi, Vlad and Ianov, Alexandru}, booktitle = {Proceedings of the Natural Legal Language Processing Workshop 2021}, doi = {10.18653/v1/2021.nllp-1.2}, month = {nov}, pages = {9--18}, publisher = {Association for Computational Linguistics}, title = {{Named Entity Recognition in the {R}omanian Legal Domain}}, url = {https://aclanthology.org/2021.nllp-1.2}, year = {2021} }
感谢 @JoelNiklaus 和 @kapllan 添加了这个数据集。