数据集:

greek_legal_code

语言:

el

计算机处理:

monolingual

大小:

10K<n<100K

语言创建人:

found

批注创建人:

found

源数据集:

original

预印本库:

arxiv:2109.15298

许可:

cc-by-4.0
英文

希腊法典数据集卡片

数据集概述

希腊法典(GLC)是一个包含约4.7万个希腊立法资源的数据集。GLC的来源是“永久希腊法典 - Raptarchis”,这是一本希腊立法文件的集合,被分类为多级(从广泛到更专业)类别。

主题

GLC由47个立法卷组成,每个卷对应一个主题。每个卷被分为主题子类别,称为章节,然后每个章节又被细分为包含法律资源的主题。章节数总共为389个,而主题数为2285个,形成了一个相互关联的主题层次结构。因此,对于上层主题级别(卷),GLC具有47个类别。对于下一个主题级别(章节),GLC提供389个类别,对于内部和最后一个主题级别(主题),GLC有2285个类别。

GLC类别根据每个主题级别分为三个类别:频繁类别,出现在10个以上的训练文档中,并且可以在所有三个子集(训练、开发和测试)中找到;少样本类别,出现在1到10个训练文档中,并且也出现在开发和测试集的文档中;零样本类别,出现在开发和/或测试集,但不出现在训练文档中。

支持的任务和排行榜

该数据集支持以下任务:

多类别文本分类:给定一篇文档的文本,模型预测相应的类别。

少样本和零样本学习:正如前面所提到的,类别可以根据是否分配给了超过10个、少于10个但至少一个或没有训练文档分为三组:频繁、少样本和零样本。

Level Total Frequent Few-Shot (<10) Zero-Shot
Volume 47 47 0 0
Chapter 389 333 53 3
Subject 2285 712 1431 142

语言

所有文档都是用希腊语编写的。

数据集结构

数据实例

{
  "text": "179. ΑΠΟΦΑΣΗ ΥΠΟΥΡΓΟΥ ΜΕΤΑΦΟΡΩΝ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ Αριθ. Β-οικ. 68425/4765 της 2/17 Νοεμ. 2000 (ΦΕΚ Β΄ 1404) Τροποποίηση της 42000/2030/81 κοιν. απόφασης του Υπουργού Συγκοινωνιών «Κωδικοποίηση και συμπλήρωση καν. Αποφάσεων» που εκδόθηκαν κατ’ εξουσιοδότηση του Ν.Δ. 102/73 «περί οργανώσεως των δια λεωφορείων αυτοκινήτων εκτελουμένων επιβατικών συγκοινωνιών». ",
  "volume": 24,  # "ΣΥΓΚΟΙΝΩΝΙΕΣ"
}

数据字段

对于文档(训练、开发、测试),提供以下数据字段:

文本:(str)每个文档的完整内容,由标题(header)和文章(main_body)表示。 标签:(类别标签)根据配置,文档所属的卷/章节/主题。特别地,对应于卷级别类别的标签有:["ΚΟΙΝΩΝΙΚΗ ΠΡΟΝΟΙΑ", "ΓΕΩΡΓΙΚΗ ΝΟΜΟΘΕΣΙΑ", "ΡΑΔΙΟΦΩΝΙΑ ΚΑΙ ΤΥΠΟΣ", "ΒΙΟΜΗΧΑΝΙΚΗ ΝΟΜΟΘΕΣΙΑ", "ΥΓΕΙΟΝΟΜΙΚΗ ΝΟΜΟΘΕΣΙΑ", "ΠΟΛΕΜΙΚΟ ΝΑΥΤΙΚΟ", "ΤΑΧΥΔΡΟΜΕΙΑ - ΤΗΛΕΠΙΚΟΙΝΩΝΙΕΣ", "ΔΑΣΗ ΚΑΙ ΚΤΗΝΟΤΡΟΦΙΑ", "ΕΛΕΓΚΤΙΚΟ ΣΥΝΕΔΡΙΟ ΚΑΙ ΣΥΝΤΑΞΕΙΣ", "ΠΟΛΕΜΙΚΗ ΑΕΡΟΠΟΡΙΑ", "ΝΟΜΙΚΑ ΠΡΟΣΩΠΑ ΔΗΜΟΣΙΟΥ ΔΙΚΑΙΟΥ", "ΝΟΜΟΘΕΣΙΑ ΑΝΩΝΥΜΩΝ ΕΤΑΙΡΕΙΩΝ ΤΡΑΠΕΖΩΝ ΚΑΙ ΧΡΗΜΑΤΙΣΤΗΡΙΩΝ", "ΠΟΛΙΤΙΚΗ ΑΕΡΟΠΟΡΙΑ", "ΕΜΜΕΣΗ ΦΟΡΟΛΟΓΙΑ", "ΚΟΙΝΩΝΙΚΕΣ ΑΣΦΑΛΙΣΕΙΣ", "ΝΟΜΟΘΕΣΙΑ ΔΗΜΩΝ ΚΑΙ ΚΟΙΝΟΤΗΤΩΝ", "ΝΟΜΟΘΕΣΙΑ ΕΠΙΜΕΛΗΤΗΡΙΩΝ ΣΥΝΕΤΑΙΡΙΣΜΩΝ ΚΑΙ ΣΩΜΑΤΕΙΩΝ", "ΔΗΜΟΣΙΑ ΕΡΓΑ", "ΔΙΟΙΚΗΣΗ ΔΙΚΑΙΟΣΥΝΗΣ", "ΑΣΦΑΛΙΣΤΙΚΑ ΤΑΜΕΙΑ", "ΕΚΚΛΗΣΙΑΣΤΙΚΗ ΝΟΜΟΘΕΣΙΑ", "ΕΚΠΑΙΔΕΥΤΙΚΗ ΝΟΜΟΘΕΣΙΑ", "ΔΗΜΟΣΙΟ ΛΟΓΙΣΤΙΚΟ", "ΤΕΛΩΝΕΙΑΚΗ ΝΟΜΟΘΕΣΙΑ", "ΣΥΓΚΟΙΝΩΝΙΕΣ", "ΕΘΝΙΚΗ ΑΜΥΝΑ", "ΣΤΡΑΤΟΣ ΞΗΡΑΣ", "ΑΓΟΡΑΝΟΜΙΚΗ ΝΟΜΟΘΕΣΙΑ", "ΔΗΜΟΣΙΟΙ ΥΠΑΛΛΗΛΟΙ", "ΠΕΡΙΟΥΣΙΑ ΔΗΜΟΣΙΟΥ ΚΑΙ ΝΟΜΙΣΜΑ", "ΟΙΚΟΝΟΜΙΚΗ ΔΙΟΙΚΗΣΗ", "ΛΙΜΕΝΙΚΗ ΝΟΜΟΘΕΣΙΑ", "ΑΣΤΙΚΗ ΝΟΜΟΘΕΣΙΑ", "ΠΟΛΙΤΙΚΗ ΔΙΚΟΝΟΜΙΑ", "ΔΙΠΛΩΜΑΤΙΚΗ ΝΟΜΟΘΕΣΙΑ", "ΔΙΟΙΚΗΤΙΚΗ ΝΟΜΟΘΕΣΙΑ", "ΑΜΕΣΗ ΦΟΡΟΛΟΓΙΑ", "ΤΥΠΟΣ ΚΑΙ ΤΟΥΡΙΣΜΟΣ", "ΕΘΝΙΚΗ ΟΙΚΟΝΟΜΙΑ", "ΑΣΤΥΝΟΜΙΚΗ ΝΟΜΟΘΕΣΙΑ", "ΑΓΡΟΤΙΚΗ ΝΟΜΟΘΕΣΙΑ", "ΕΡΓΑΤΙΚΗ ΝΟΜΟΘΕΣΙΑ", "ΠΟΙΝΙΚΗ ΝΟΜΟΘΕΣΙΑ", "ΕΜΠΟΡΙΚΗ ΝΟΜΟΘΕΣΙΑ", "ΕΠΙΣΤΗΜΕΣ ΚΑΙ ΤΕΧΝΕΣ", "ΕΜΠΟΡΙΚΗ ΝΑΥΤΙΛΙΑ", "ΣΥΝΤΑΓΜΑΤΙΚΗ ΝΟΜΟΘΕΣΙΑ"] \

标签也可以是它所属的章节级别或主题级别的类别。由于大小的原因,某些章节标签被省略(389个类别)。由于大小的原因,某些主题标签也被省略(2285个类别)。

数据拆分

Split No of Documents Avg. words
Train 28,536 600
Development 9,511 574
Test 9,516 595

数据集创建

策划理由

该数据集由Papaloukas等人(2021年)策划,以期支持和鼓励希腊语自然语言处理研究的进一步发展。

数据来源

初始数据收集和规范化

“永久希腊法典 - Raptarchis”是希腊1834年成立至2015年的希腊立法的全面目录。它包括从希腊法律出版物“官方政府公报”中检索到的法律、法令、法规和决定。这个集合是一份官方的、公开可得的分类希腊立法,适用于分类任务。

目前,原始目录通过e-Themis门户网站以MS Word(.doc)格式公开提供,并且作为希腊政府内政部门管理的e-Themis法律数据库和管理服务的一部分提供。e-Themis主要关注于提供多个预定义主题类别的法律法规,如目录所述。其主要目标是通过主题索引帮助用户找到感兴趣的法律法规。

谁是源语言制片人?

[需要更多信息]

注释

注释过程

[需要更多信息]

注释者是谁?

[需要更多信息]

个人和敏感信息

该数据集不包含个人或敏感信息。

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策划者

Papaloukas等人(2021年)

许可信息

[需要更多信息]

引用信息

Christos Papaloukas,Ilias Chalkidis,Konstantinos Athinaios,Despina-Athanasia Pantazi和Manolis Koubarakis.希腊立法的多粒度主题分类. 第三届自然法律语言处理(NLLP)研讨会论文集,多米尼加共和国Punta Cana,2021年

@inproceedings{papaloukas-etal-2021-glc,
    title = "Multi-granular Legal Topic Classification on Greek Legislation",
    author = "Papaloukas, Christos and Chalkidis, Ilias and Athinaios, Konstantinos and Pantazi, Despina-Athanasia and Koubarakis, Manolis",
    booktitle = "Proceedings of the Natural Legal Language Processing Workshop 2021",
    year = "2021",
    address = "Punta Cana, Dominican Republic",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/2109.15298",
    doi = "10.48550/arXiv.2109.15298",
    pages = "63--75"
}

贡献

感谢 @christospi 添加了该数据集。