数据集:
joelito/greek_legal_ner
任务:
语言:
计算机处理:
monolingual大小:
10K<n<100K语言创建人:
found批注创建人:
other源数据集:
original许可:
该数据集包含希腊立法中命名实体识别的注释语料库。这是希腊语言中第一个如此扩展的数据集,也是少数几个在全面的实体识别方面研究法律文本的数据集之一。
该数据集支持命名实体识别的任务。
数据集中的语言是希腊语,与希腊政府公报中使用的语言相同。
文件格式为jsonl,并且存在三个数据拆分(训练集、验证集和测试集)。
文件包含以下数据字段
最终的标签集(以IOB标记法表示)如下: ['O', 'B-ORG', 'I-ORG', 'B-GPE', 'I-GPE', 'B-LEG-REFS', 'I-LEG-REFS', 'B-PUBLIC-DOCS', 'I-PUBLIC-DOCS', 'B-PERSON', 'I-PERSON', 'B-FACILITY', 'I-FACILITY', 'B-LOCATION-UNK', 'I-LOCATION-UNK', 'B-LOCATION-NAT', 'I-LOCATION-NAT']
数据集有三个拆分:train、validation和test。
根据文档进行拆分:
| split | number of documents |
|---|---|
| train | 23723 |
| validation | 5478 |
| test | 5084 |
按NER标签进行拆分
| NER label + split | number of instances |
|---|---|
| ('FACILITY', 'test') | 142 |
| ('FACILITY', 'train') | 1224 |
| ('FACILITY', 'validation') | 60 |
| ('GPE', 'test') | 1083 |
| ('GPE', 'train') | 5400 |
| ('GPE', 'validation') | 1214 |
| ('LEG-REFS', 'test') | 1331 |
| ('LEG-REFS', 'train') | 5159 |
| ('LEG-REFS', 'validation') | 1382 |
| ('LOCATION-NAT', 'test') | 26 |
| ('LOCATION-NAT', 'train') | 145 |
| ('LOCATION-NAT', 'validation') | 2 |
| ('LOCATION-UNK', 'test') | 205 |
| ('LOCATION-UNK', 'train') | 1316 |
| ('LOCATION-UNK', 'validation') | 283 |
| ('ORG', 'test') | 1354 |
| ('ORG', 'train') | 5906 |
| ('ORG', 'validation') | 1506 |
| ('PERSON', 'test') | 491 |
| ('PERSON', 'train') | 1921 |
| ('PERSON', 'validation') | 475 |
| ('PUBLIC-DOCS', 'test') | 452 |
| ('PUBLIC-DOCS', 'train') | 2652 |
| ('PUBLIC-DOCS', 'validation') | 556 |
创建一个用于希腊命名实体识别和实体链接的大型数据集。
[需要更多信息]
谁是源语言的制作者?希腊政府公报
[需要更多信息]
谁是标注者?根据(Angelidis等人,2018)的说法,论文的作者对数据进行了注释:“我们的小组注释了所有上述提到的文件,针对我们研究的6种类型的实体。”
[需要更多信息]
[需要更多信息]
[需要更多信息]
请注意,此数据集卡中提供的信息是指由Joel Niklaus和Veton Matoshi提供的数据集版本。手头的数据集旨在成为一个更大的基准数据集的一部分。创建一个由来自不同来源的多个其他数据集组成的基准数据集需要进行后处理。因此,手头数据集的结构,包括文件夹结构,可能与原始数据集大相径庭。此外,可以预期与论文中给出的数据集统计信息存在差异。读者建议查看转换脚本convert_to_hf_dataset.py,以追溯将原始数据集转换为当前jsonl格式的步骤。有关原始数据集结构的进一步信息,请参阅本数据集卡片中提供的参考文献和原始Github存储库和/或网页。
原始数据集策划者和创建者的名称可以在下面的参考文献中找到,位于节引用信息中。Joel Niklaus(电子邮件; Github )和Veton Matoshi(电子邮件; Github )对其进行了进一步的更改。
Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License
@inproceedings{Angelidis2018NamedER,
author = {Angelidis, Iosif and Chalkidis, Ilias and Koubarakis, Manolis},
booktitle = {JURIX},
keywords = {greek,legal nlp,named entity recognition},
title = {{Named Entity Recognition, Linking and Generation for Greek Legislation}},
year = {2018}
}
感谢 @JoelNiklaus 和 @kapllan 添加了此数据集。