数据集:

joelito/mapa

英文

多语言欧洲法律领域敏感实体检测数据集

数据集摘要

该数据集包含来自EUR-Lex的12个文件(由于解析错误,9个文件为西班牙语),EUR-Lex是欧洲联盟24种官方语言的法院决定和法律规定的多语言语料库。根据 MAPA project 的指南,这些文件已经进行了名词实体的注释,该指南预计有两个注释级别,一个是一般的级别,一个是更细粒度的级别。该标注语料可用于命名实体识别/分类。

支持的任务和排行榜

该数据集支持命名实体识别和分类(NERC)任务。

语言

支持以下语言:bg, cs, da, de, el, en, es, et, fi, fr, ga, hu, it, lt, lv, mt, nl, pt, ro, sk, sv

数据集结构

数据实例

文件格式为jsonl,存在三个数据拆分(训练、验证和测试)。命名实体注释不重叠。

数据字段

对于注释,文件已被拆分为句子。注释是基于标记的。文件包含以下数据字段:

  • 语言:句子的语言
  • 类型:句子的文档类型。目前只支持EUR-LEX。
  • 文件名:句子所属的文档文件名。
  • 句子编号:句子在其文档中的编号。
  • 标记:句子中的标记列表。
  • 粗粒度:每个标记的粗粒度注释
  • 细粒度:每个标记的细粒度注释

如前所述,注释是根据全局和更细粒度的级别进行的。

用于全局和细粒度命名实体的标签集如下:

  • 地址
    • 建筑物
    • 城市
    • 国家
    • 场所
    • 邮政编码
    • 街道
    • 领土
  • 金额
    • 单位
  • 日期
    • 年份
    • 标准缩写
    • 月份
    • 星期几
    • 日子
    • 日历事件
  • 个人
    • 年龄
    • 电子邮件
    • 种族类别
    • 财务
    • 名 - 女性
    • 名 - 男性
    • 医疗保险号码
    • 身份证件号码
    • 名称
    • 婚姻状况
    • 医疗记录号码
    • 国籍
    • 职业
    • 角色
    • 社保号码
    • 职称
    • 网址
  • 组织
  • 时间
  • 车辆
    • 生产年份
    • 颜色
    • 车牌号
    • 型号
    • 类型

最终的粗粒度标签集(使用IOB表示法)如下:

['O', 'B-ORGANISATION', 'I-ORGANISATION', 'B-ADDRESS', 'I-ADDRESS', 'B-DATE', 'I-DATE', 'B-PERSON', 'I-PERSON', 'B-AMOUNT', 'I-AMOUNT', 'B-TIME', 'I-TIME']

最终的细粒度标签集(使用IOB表示法)如下:

[ 'O', 'B-BUILDING', 'I-BUILDING', 'B-CITY', 'I-CITY', 'B-COUNTRY', 'I-COUNTRY', 'B-PLACE', 'I-PLACE', 'B-TERRITORY', 'I-TERRITORY', 'I-UNIT', 'B-UNIT', 'B-VALUE', 'I-VALUE', 'B-YEAR', 'I-YEAR', 'B-STANDARD ABBREVIATION', 'I-STANDARD ABBREVIATION', 'B-MONTH', 'I-MONTH', 'B-DAY', 'I-DAY', 'B-AGE', 'I-AGE', 'B-ETHNIC CATEGORY', 'I-ETHNIC CATEGORY', 'B-FAMILY NAME', 'I-FAMILY NAME', 'B-INITIAL NAME', 'I-INITIAL NAME', 'B-MARITAL STATUS', 'I-MARITAL STATUS', 'B-PROFESSION', 'I-PROFESSION', 'B-ROLE', 'I-ROLE', 'B-NATIONALITY', 'I-NATIONALITY', 'B-TITLE', 'I-TITLE', 'B-URL', 'I-URL', 'B-TYPE', 'I-TYPE', ]

数据拆分

拆分由Joel Niklaus创建。

language # train files # validation files # test files # train sentences # validation sentences # test sentences
bg 9 1 2 1411 166 560
cs 9 1 2 1464 176 563
da 9 1 2 1455 164 550
de 9 1 2 1457 166 558
el 9 1 2 1529 174 584
en 9 1 2 893 98 408
es 7 1 1 806 248 155
et 9 1 2 1391 163 516
fi 9 1 2 1398 187 531
fr 9 1 2 1297 97 490
ga 9 1 2 1383 165 515
hu 9 1 2 1390 171 525
it 9 1 2 1411 162 550
lt 9 1 2 1413 173 548
lv 9 1 2 1383 167 553
mt 9 1 2 937 93 442
nl 9 1 2 1391 164 530
pt 9 1 2 1086 105 390
ro 9 1 2 1480 175 557
sk 9 1 2 1395 165 526
sv 9 1 2 1453 175 539

数据集创建

策展原理

“[…]据我们了解,在法律领域中,还没有针对NERC [命名实体识别和分类]在西班牙语中进行注释的开放资源。通过发布用于领域自适应法律领域的敏感实体检测的创建资源,我们希望填补这一空白。通过创建用于微调和评估西班牙语中法律领域敏感实体检测的资源,我们期望鼓励该领域的西班牙语匿名化工具的开发”(de Gibert Bonet等,2022)

源数据

初始数据收集和规范化

该数据集包含从EUR-Lex语料库中获取的文件,该语料库是公开可用的。在de Gibert Bonet等(2022)中没有提供有关数据收集过程的进一步信息。

谁是源语言生产者?

源语言生产者可能是律师们。

注释

注释过程

“注释方案由一种复杂的两级层次结构组成,适应了法律领域,它遵循了[Gianola等人,2020年]中描述的方案[…]一级实体指的是一般类别(人物、日期、时间、地址...),而二级实体指的是更细粒度的子类别(名字、个人名字、日期、年份、月份...)。根据这种注释方案,对Eur-Lex、CPP和DE进行了注释[…]使用INCePTION(Klie等人,2018年)进行了手动注释,由一个注释者根据MAPA联盟提供的指南进行。"(de Gibert Bonet等,2022)

谁是标注者?

只有一个标注者进行了注释。在de Gibert Bonet等(2022)中没有提供更多信息。

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

请注意,手头的数据集只是大型语料库的一小部分,如de Gibert Bonet等(2022)所述。撰写本文时,只有EUR-Lex语料库的标注文件可用。

请注意,此数据集卡中给出的信息是按照Joel Niklaus和Veton Matoshi提供的数据集版本。手头的数据集旨在成为更大的基准数据集的一部分。创建由不同来源的若干其他数据集组成的基准数据集需要进行后处理。因此,与原始数据集包括文件结构在内的数据集结构可能存在相当大的差异。此外,可能会有与给出的各篇论文中的数据集统计数据的差异。建议读者查看 convert_to_hf_dataset.py 中的转换脚本,以追溯将原始数据集转换为当前jsonl格式的步骤。有关原始数据集结构的进一步信息,请参阅本数据集卡中提供的参考文献和原始Github存储库和/或网页。

附加信息

数据集策展者

原始数据集策展者和创建者的姓名可以在下面的参考文献中找到,在 Citation Information 部分。Joel Niklaus( Email ; Github )和Veton Matoshi( Email ; Github )进行了其他更改。

许可信息

Attribution 4.0 International (CC BY 4.0)

引用信息

@article{DeGibertBonet2022,
author = {{de Gibert Bonet}, Ona and {Garc{\'{i}}a Pablos}, Aitor and Cuadros, Montse and Melero, Maite},
journal = {Proceedings of the Language Resources and Evaluation Conference},
number = {June},
pages = {3751--3760},
title = {{Spanish Datasets for Sensitive Entity Detection in the Legal Domain}},
url = {https://aclanthology.org/2022.lrec-1.400},
year = {2022}
}

贡献

感谢 @JoelNiklaus @kapllan 添加了此数据集。