数据集:

joelito/greek_legal_ner

语言:

el

计算机处理:

monolingual

大小:

10K<n<100K

语言创建人:

found

批注创建人:

other

源数据集:

original
英文

Greek Legal Named Entity Recognition 数据集卡片

数据集摘要

该数据集包含希腊立法中命名实体识别的注释语料库。这是希腊语言中第一个如此扩展的数据集,也是少数几个在全面的实体识别方面研究法律文本的数据集之一。

支持的任务和排行榜

该数据集支持命名实体识别的任务。

语言

数据集中的语言是希腊语,与希腊政府公报中使用的语言相同。

数据集结构

数据实例

文件格式为jsonl,并且存在三个数据拆分(训练集、验证集和测试集)。

数据字段

文件包含以下数据字段

  • date:文档发布日期。
  • gazette:文档的政府公报。可以是A或D
    • A是普通公告,发布标准法规
    • D用于城市规划等立法
  • words:通过将句子应用于spacy(版本3.3.1)希腊语分词器而获得的标记列表。有关更多信息,请参见convert_to_hf_dataset.py。
  • ner:ner标签列表。该数据集涵盖的命名实体的标签列表如下:
    • FACILITY:设施,如警察局,部门等。
    • GPE:地缘政治实体;任何对地缘政治实体(例如国家、城市、希腊行政单位等)的引用。
    • LEG-REFS:法规参考;任何对希腊或欧洲立法的引用(例如总统令、法律、决策、欧盟法规和指令等)。
    • LOCATION-NAT:明确定义的自然位置,如河流、山脉、湖泊等。
    • LOCATION-UNK:定义不明确的位置,例如“X路的末端”或其他非“正式”的位置。
    • ORG:组织;任何对公共或私人组织的引用,例如:国际组织(例如欧盟,联合国等)、希腊公共组织(例如社会保险机构)或私人组织(例如公司,非政府组织等)。
    • PERSON:文本中提到的任何人的正式姓名(例如希腊政府成员,公共行政官员等)。
    • PUBLIC-DOCS:公共文档参考;任何对公共机构(组织)发布的不被视为立法主要来源的文件或决策的引用(例如地方决策、公告、备忘录、指令)。
    • O:不存在实体注释

最终的标签集(以IOB标记法表示)如下: ['O', 'B-ORG', 'I-ORG', 'B-GPE', 'I-GPE', 'B-LEG-REFS', 'I-LEG-REFS', 'B-PUBLIC-DOCS', 'I-PUBLIC-DOCS', 'B-PERSON', 'I-PERSON', 'B-FACILITY', 'I-FACILITY', 'B-LOCATION-UNK', 'I-LOCATION-UNK', 'B-LOCATION-NAT', 'I-LOCATION-NAT']

数据拆分

数据集有三个拆分:train、validation和test。

根据文档进行拆分:

split number of documents
train 23723
validation 5478
test 5084

按NER标签进行拆分

NER label + split number of instances
('FACILITY', 'test') 142
('FACILITY', 'train') 1224
('FACILITY', 'validation') 60
('GPE', 'test') 1083
('GPE', 'train') 5400
('GPE', 'validation') 1214
('LEG-REFS', 'test') 1331
('LEG-REFS', 'train') 5159
('LEG-REFS', 'validation') 1382
('LOCATION-NAT', 'test') 26
('LOCATION-NAT', 'train') 145
('LOCATION-NAT', 'validation') 2
('LOCATION-UNK', 'test') 205
('LOCATION-UNK', 'train') 1316
('LOCATION-UNK', 'validation') 283
('ORG', 'test') 1354
('ORG', 'train') 5906
('ORG', 'validation') 1506
('PERSON', 'test') 491
('PERSON', 'train') 1921
('PERSON', 'validation') 475
('PUBLIC-DOCS', 'test') 452
('PUBLIC-DOCS', 'train') 2652
('PUBLIC-DOCS', 'validation') 556

数据集创建

策划理由

创建一个用于希腊命名实体识别和实体链接的大型数据集。

数据来源

初始数据收集和规范化

[需要更多信息]

谁是源语言的制作者?

希腊政府公报

注释

注释过程

[需要更多信息]

谁是标注者?

根据(Angelidis等人,2018)的说法,论文的作者对数据进行了注释:“我们的小组注释了所有上述提到的文件,针对我们研究的6种类型的实体。”

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

请注意,此数据集卡中提供的信息是指由Joel Niklaus和Veton Matoshi提供的数据集版本。手头的数据集旨在成为一个更大的基准数据集的一部分。创建一个由来自不同来源的多个其他数据集组成的基准数据集需要进行后处理。因此,手头数据集的结构,包括文件夹结构,可能与原始数据集大相径庭。此外,可以预期与论文中给出的数据集统计信息存在差异。读者建议查看转换脚本convert_to_hf_dataset.py,以追溯将原始数据集转换为当前jsonl格式的步骤。有关原始数据集结构的进一步信息,请参阅本数据集卡片中提供的参考文献和原始Github存储库和/或网页。

其他信息

数据集策划者

原始数据集策划者和创建者的名称可以在下面的参考文献中找到,位于节引用信息中。Joel Niklaus(电子邮件; Github )和Veton Matoshi(电子邮件; Github )对其进行了进一步的更改。

许可信息

Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License

引用信息

@inproceedings{Angelidis2018NamedER,
  author = {Angelidis, Iosif and Chalkidis, Ilias and Koubarakis, Manolis},
  booktitle = {JURIX},
  keywords = {greek,legal nlp,named entity recognition},
  title = {{Named Entity Recognition, Linking and Generation for Greek Legislation}},
  year = {2018}
}

贡献

感谢 @JoelNiklaus @kapllan 添加了此数据集。