该数据集包含来自EUR-Lex的12个文件(由于解析错误,9个文件为西班牙语),EUR-Lex是欧洲联盟24种官方语言的法院决定和法律规定的多语言语料库。根据 MAPA project 的指南,这些文件已经进行了名词实体的注释,该指南预计有两个注释级别,一个是一般的级别,一个是更细粒度的级别。该标注语料可用于命名实体识别/分类。
该数据集支持命名实体识别和分类(NERC)任务。
支持以下语言:bg, cs, da, de, el, en, es, et, fi, fr, ga, hu, it, lt, lv, mt, nl, pt, ro, sk, sv
文件格式为jsonl,存在三个数据拆分(训练、验证和测试)。命名实体注释不重叠。
对于注释,文件已被拆分为句子。注释是基于标记的。文件包含以下数据字段:
如前所述,注释是根据全局和更细粒度的级别进行的。
用于全局和细粒度命名实体的标签集如下:
最终的粗粒度标签集(使用IOB表示法)如下:
['O', 'B-ORGANISATION', 'I-ORGANISATION', 'B-ADDRESS', 'I-ADDRESS', 'B-DATE', 'I-DATE', 'B-PERSON', 'I-PERSON', 'B-AMOUNT', 'I-AMOUNT', 'B-TIME', 'I-TIME']
最终的细粒度标签集(使用IOB表示法)如下:
[ 'O', 'B-BUILDING', 'I-BUILDING', 'B-CITY', 'I-CITY', 'B-COUNTRY', 'I-COUNTRY', 'B-PLACE', 'I-PLACE', 'B-TERRITORY', 'I-TERRITORY', 'I-UNIT', 'B-UNIT', 'B-VALUE', 'I-VALUE', 'B-YEAR', 'I-YEAR', 'B-STANDARD ABBREVIATION', 'I-STANDARD ABBREVIATION', 'B-MONTH', 'I-MONTH', 'B-DAY', 'I-DAY', 'B-AGE', 'I-AGE', 'B-ETHNIC CATEGORY', 'I-ETHNIC CATEGORY', 'B-FAMILY NAME', 'I-FAMILY NAME', 'B-INITIAL NAME', 'I-INITIAL NAME', 'B-MARITAL STATUS', 'I-MARITAL STATUS', 'B-PROFESSION', 'I-PROFESSION', 'B-ROLE', 'I-ROLE', 'B-NATIONALITY', 'I-NATIONALITY', 'B-TITLE', 'I-TITLE', 'B-URL', 'I-URL', 'B-TYPE', 'I-TYPE', ]
拆分由Joel Niklaus创建。
language | # train files | # validation files | # test files | # train sentences | # validation sentences | # test sentences |
---|---|---|---|---|---|---|
bg | 9 | 1 | 2 | 1411 | 166 | 560 |
cs | 9 | 1 | 2 | 1464 | 176 | 563 |
da | 9 | 1 | 2 | 1455 | 164 | 550 |
de | 9 | 1 | 2 | 1457 | 166 | 558 |
el | 9 | 1 | 2 | 1529 | 174 | 584 |
en | 9 | 1 | 2 | 893 | 98 | 408 |
es | 7 | 1 | 1 | 806 | 248 | 155 |
et | 9 | 1 | 2 | 1391 | 163 | 516 |
fi | 9 | 1 | 2 | 1398 | 187 | 531 |
fr | 9 | 1 | 2 | 1297 | 97 | 490 |
ga | 9 | 1 | 2 | 1383 | 165 | 515 |
hu | 9 | 1 | 2 | 1390 | 171 | 525 |
it | 9 | 1 | 2 | 1411 | 162 | 550 |
lt | 9 | 1 | 2 | 1413 | 173 | 548 |
lv | 9 | 1 | 2 | 1383 | 167 | 553 |
mt | 9 | 1 | 2 | 937 | 93 | 442 |
nl | 9 | 1 | 2 | 1391 | 164 | 530 |
pt | 9 | 1 | 2 | 1086 | 105 | 390 |
ro | 9 | 1 | 2 | 1480 | 175 | 557 |
sk | 9 | 1 | 2 | 1395 | 165 | 526 |
sv | 9 | 1 | 2 | 1453 | 175 | 539 |
“[…]据我们了解,在法律领域中,还没有针对NERC [命名实体识别和分类]在西班牙语中进行注释的开放资源。通过发布用于领域自适应法律领域的敏感实体检测的创建资源,我们希望填补这一空白。通过创建用于微调和评估西班牙语中法律领域敏感实体检测的资源,我们期望鼓励该领域的西班牙语匿名化工具的开发”(de Gibert Bonet等,2022)
该数据集包含从EUR-Lex语料库中获取的文件,该语料库是公开可用的。在de Gibert Bonet等(2022)中没有提供有关数据收集过程的进一步信息。
谁是源语言生产者?源语言生产者可能是律师们。
“注释方案由一种复杂的两级层次结构组成,适应了法律领域,它遵循了[Gianola等人,2020年]中描述的方案[…]一级实体指的是一般类别(人物、日期、时间、地址...),而二级实体指的是更细粒度的子类别(名字、个人名字、日期、年份、月份...)。根据这种注释方案,对Eur-Lex、CPP和DE进行了注释[…]使用INCePTION(Klie等人,2018年)进行了手动注释,由一个注释者根据MAPA联盟提供的指南进行。"(de Gibert Bonet等,2022)
谁是标注者?只有一个标注者进行了注释。在de Gibert Bonet等(2022)中没有提供更多信息。
[需要更多信息]
[需要更多信息]
[需要更多信息]
请注意,手头的数据集只是大型语料库的一小部分,如de Gibert Bonet等(2022)所述。撰写本文时,只有EUR-Lex语料库的标注文件可用。
请注意,此数据集卡中给出的信息是按照Joel Niklaus和Veton Matoshi提供的数据集版本。手头的数据集旨在成为更大的基准数据集的一部分。创建由不同来源的若干其他数据集组成的基准数据集需要进行后处理。因此,与原始数据集包括文件结构在内的数据集结构可能存在相当大的差异。此外,可能会有与给出的各篇论文中的数据集统计数据的差异。建议读者查看 convert_to_hf_dataset.py 中的转换脚本,以追溯将原始数据集转换为当前jsonl格式的步骤。有关原始数据集结构的进一步信息,请参阅本数据集卡中提供的参考文献和原始Github存储库和/或网页。
原始数据集策展者和创建者的姓名可以在下面的参考文献中找到,在 Citation Information 部分。Joel Niklaus( Email ; Github )和Veton Matoshi( Email ; Github )进行了其他更改。
Attribution 4.0 International (CC BY 4.0)
@article{DeGibertBonet2022, author = {{de Gibert Bonet}, Ona and {Garc{\'{i}}a Pablos}, Aitor and Cuadros, Montse and Melero, Maite}, journal = {Proceedings of the Language Resources and Evaluation Conference}, number = {June}, pages = {3751--3760}, title = {{Spanish Datasets for Sensitive Entity Detection in the Legal Domain}}, url = {https://aclanthology.org/2022.lrec-1.400}, year = {2022} }
感谢 @JoelNiklaus 和 @kapllan 添加了此数据集。