数据集:

ecthr_cases

其他:

rationale-extraction legal-judgment-prediction

许可:

cc-by-nc-sa-4.0

预印本库:

arxiv:2103.13084

源数据集:

original

批注创建人:

found expert-generated

语言创建人:

found

大小:

10K<n<100K

计算机处理:

monolingual

语言:

子任务:

multi-label-classification

任务:

文本分类

数据集介绍文件清单

英文

ECtHR案例数据集的数据卡

数据集摘要

欧洲人权法院（ECtHR）审理欧洲国家违反欧洲人权公约（ECHR）人权规定的指控。公约可在链接 https://www.echr.coe.int/Documents/Convention_ENG.pdf 查看。法院裁决关于欧洲国家违反某些ECHR条款的争议，这些条款是由申请人（原告）预先确定的。本数据集包括了11k个ECtHR案例，可视为Chalkidis等人（2019）的ECtHR数据集的增强版本，后者未提供关于所述条款违反（讨论的条款）和理由的准确性。新数据集包括以下内容：

事实：每个判决都包括一个列表，列出了与案件相关的主要事件，这些事件以编号段落的形式呈现，用于描述案件的事实。我们在这里将这些段落简称为“事实”。需要注意的是，事实按照时间顺序呈现。并非所有的事实都对所述条款违反和法院评估具有相同的影响力或至关重要的信息；也就是说，事实可能涉及与对被告国家的关键指控无关的琐碎或其他无关紧要的信息。

所述条款违反：法官对申请人（Harris，2018）提出的特定指控（指控）进行裁决。在ECtHR案例中，法官对公约的具体条款进行讨论和裁决，这些条款是由申请人提出的（作为所谓的条款违反）并作为准确性包含在数据集中；我们总共确定了40个可违反的条款。其余的条款是程序性的，即涉及法官人数、任职条件、法官选举等。然而，在我们的实验中，模型不知道这些指控。基于案件事实，它们预测将被讨论的公约条款（指控），并为其预测提供理由。这类模型可以帮助潜在的申请人确定将来可以声称已被违反的条款（指控），如前所述，但我们在这里主要将任务用作评估理由提取的试验平台。

被违反的条款：法院决定哪些被指控违反的条款实际上已经被违反。这些决定也包含在我们的数据集中，并可用于进行完整的法律判决预测实验（Chalkidis等人，2019）。但是，在本研究的实验中，这些决定未被使用。

银质指控理由：ECtHR的每个裁决都包括对案件事实的引用（例如，“见第2和第4段。”）和案例法（例如，“见Draci诉俄罗斯（2010）”。）。我们使用正则表达式识别了每个案件事实的引用并提取了相应的段落。这些段落被作为银质指控理由包含在数据集中，因为法官在裁定指控时引用了这些段落。

金质指控理由：一位在ECtHR案件方面具有经验的法律专家对50个测试案例进行了标注，以确定支持指控（所述条款违反）的案件事实（段落）。换句话说，确定的每个案件事实都会证明一个或多个指控。

支持的任务和排行榜

该数据集支持以下任务：

所述违反预测（alleged-violation-prediction）：这是一个多标签文本分类任务，给定ECtHR案例的事实，模型需要预测申请人声称违反的哪些40个可违反的ECHR条款。详细信息请参考Chalkidis等人（2021）。

违规预测（violation-prediction）：这是一个多标签文本分类任务，给定ECtHR案例的事实，模型需要预测ECtHR法院裁决违反了哪些被指控违反的ECHR条款。详细信息请参考Chalkidis等人（2019）。

理由提取：模型还可以预测案件事实中对其分类任务决策最支持的事实。银质理由可以用于这两个分类任务，而金质理由仅专注于所述违反预测任务。

语言

所有文件均以英文撰写。

数据集结构

数据实例

此示例太长，已被截断：

{
 "facts": [
  "8.  In 1991 Mr Dusan Slobodnik, a research worker in the field of literature, ...",
  "9.  On 20 July 1992 the newspaper Telegraf published a poem by the applicant.",
  "10.  The poem was later published in another newspaper.", 
   "...",
  "39.  The City Court further dismissed the claim in respect of non-pecuniary damage ... ",
  "40.  The City Court ordered the plaintiff to pay SKK 56,780 to the applicant ...",
  "41.  On 25 November 1998 the Supreme Court upheld the decision of the Bratislava City Court ..."
 ],
 "labels": ["14", "10", "9", "36"], 
 "silver_rationales": [27],
 "gold_rationales": []
}

数据字段

facts：（List[str]）案件的段落（事实）。 labels：（List[str]）正在讨论的ECHR条款（被指控的条款违反）；或根据法院的裁决违反了的被指控的ECHR条款。 silver_rationales：（List[int]）法院评估中存在的段落（事实）的索引。 gold_rationales：（List[int]）根据法律专家的意见，支持被指控违反的段落（事实）的索引。

数据划分

Split	No of ECtHR cases	Silver rationales ratio	Avg. allegations / case
Train	9,000	24%	1.8
Development	1,000	30%	1.7
Test	1,000	31%	1.7

数据集创建

策划理由

该数据集由Chalkidis等人（2021）策划。感谢Dimitris Tsarapatsanis（约克法学院讲师）提供的金质理由的注释。

来源数据

初始数据收集和规范化

原始数据以未经处理的格式在HUDOC数据库（ https://hudoc.echr.coe.int/eng ）中提供。我们下载了数据并从HTML文件和几个JSON元数据文件中提取了所有信息。

资源语言的制作者是谁？

[需要更多信息]

注释

注释过程

原始文档以HTML格式在HUDOC数据库（ https://hudoc.echr.coe.int/eng ）中提供，除金质理由外。元数据由附加的由REST服务生成的JSON文件提供。
感谢Dimitris Tsarapatsanis（约克法学院讲师）提供的金质理由的注释。

注释者是谁？

Dimitris Tsarapatsanis（约克法学院讲师）。

个人和敏感信息

来自HUDOC的个人数据隐私声明（ https://www.echr.coe.int/Pages/home.aspx?p=privacy ）

The Court complies with the Council of Europe's policy on protection of personal data, in so far as this is consistent with exercising its functions under the European Convention on Human Rights.

The Council of Europe is committed to respect for private life. Its policy on protection of personal data is founded on the Secretary General’s Regulation of 17 April 1989 outlining a data protection system for personal data files in the Council of Europe. 

Most pages of the Council of Europe site require no personal information except in certain cases to allow requests for on-line services to be met. In such cases, the information is processed in accordance with the Confidentiality policy described below.

使用数据的注意事项

数据的社会影响

该数据集的发布符合ECtHR的数据政策（ https://www.echr.coe.int/Pages/home.aspx?p=privacy ）。

我们决不打算构建一个“机器人”律师或法官，并且我们承认不负责任地部署可能产生的有害影响（Angwin等，2016年；Dressel等，2018年）。相反，我们旨在支持公正且可解释的AI辅助司法决策和实证法学研究。

例如，自动化服务可以帮助申请人（原告）确定案件事实支持的声称违规。它们可以帮助法官更快地确定支持声称违规的事实，有助于更明智的司法决策（钟等，2020）。它们还可以帮助法律专家识别与特定指控相关的先前案件，帮助分析案例法（Katz等，2012年）。

此外，请考虑正在进行的有关负责任AI的关键研究（Elish等，2021年），旨在提供可解释和公正的系统来支持人类专家。

偏差讨论

请考虑Chalkidis等人（2019年）的工作，以确定模型的人口统计偏差。

其他已知限制

N/A

附加信息

数据集策划者

Ilias Chalkidis和Dimitris Tsarapatsanis

许可信息

CC BY-NC-SA（知识共享署名-非商业性使用-相同方式共享）

引用信息

Ilias Chalkidis，Manos Fergadiotis，Dimitrios Tsarapatsanis，Nikolaos Aletras，Ion Androutsopoulos和Prodromos Malakasiotis。段落级的理由提取和正则化：欧洲人权法院案例研究。第4889届北美计算语言学协会年会论文集（NAACL 2021）。墨西哥城，墨西哥。2021年。

@InProceedings{chalkidis-et-al-2021-ecthr,
    title = "Paragraph-level Rationale Extraction through Regularization: A case study on European Court of Human Rights Cases",
    author = "Chalkidis, Ilias and Fergadiotis, Manos and Tsarapatsanis, Dimitrios and Aletras, Nikolaos and Androutsopoulos, Ion and Malakasiotis, Prodromos",
    booktitle = "Proceedings of the Annual Conference of the North American Chapter of the Association for Computational Linguistics",
    year = "2021",
    address = "Mexico City, Mexico",
    publisher = "Association for Computational Linguistics"
}

Ilias Chalkidis，Ion Androutsopoulos和Nikolaos Aletras。英文的神经法律判断预测。第57届年会计算语言学协会年会论文集（ACL 2019）。意大利佛罗伦萨。2019年。

@InProceedings{chalkidis-etal-2019-neural,
    title = "Neural Legal Judgment Prediction in {E}nglish",
    author = "Chalkidis, Ilias  and Androutsopoulos, Ion  and Aletras, Nikolaos",
    booktitle = "Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics",
    year = "2019",
    address = "Florence, Italy",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/P19-1424",
    doi = "10.18653/v1/P19-1424",
    pages = "4317--4323"
}

贡献

感谢 @iliaschalkidis 添加了此数据集。

作者:

佚名

数据集大小:

27.63 KB