数据集:

rcds/swiss_criticality_prediction

计算机处理:

multilingual

大小:

100K<n<1M

语言创建人:

expert-generated

批注创建人:

machine-generated

源数据集:

original

预印本库:

arxiv:2306.09237
英文

Criticality Prediction 数据集卡片

数据集概要

Legal Criticality Prediction (LCP) 是一个跨语言、时序的数据集,包含了139K个瑞士联邦最高法院(FSCS)的案例,并对其进行了两个重要性标注。bge_label 是一个二元标签(关键,非关键),而引用标签具有5个类别(关键-1、关键-2、关键-3、关键-4、非关键)。引用标签中的关键类别是bge_label中关键类别的子集。该数据集为文本分类任务带来了挑战。此外,我们还提供了每个案例的出版年份、法律领域和来源法院的附加元数据,以促进对法律NLP中关键领域的鲁棒性和公平性研究。

支持的任务和排行榜

LCP可用作文本分类任务

语言

瑞士有四种官方语言,其中德语、法语、意大利语分别被使用。裁决的语言由法官和助理以庭审语言撰写。德语(91k),法语(33k),意大利语(15k)

数据集结构

{
  "decision_id": "008d8a52-f0ea-4820-a18c-d06066dbb407",
  "language": "fr",
  "year": "2018",
  "chamber": "CH_BGer_004",
  "region": "Federation",
  "origin_chamber": "338.0",
  "origin_court": "127.0",
  "origin_canton": "24.0",
  "law_area": "civil_law",
  "law_sub_area": ,
  "bge_label": "critical",
  "citation_label": "critical-1",
  "facts": "Faits : A. A.a. Le 17 août 2007, C.X._, née le 14 février 1944 et domiciliée...",
  "considerations": "Considérant en droit : 1. Interjeté en temps utile (art. 100 al. 1 LTF) par les défendeurs qui ont succombé dans leurs conclusions (art. 76 LTF) contre une décision...",
  "rulings": "Par ces motifs, le Tribunal fédéral prononce : 1. Le recours est rejeté. 2. Les frais judiciaires, arrêtés à 10'000 fr., sont mis solidairement à la charge des recourants...",
}

数据字段

decision_id: (str) a unique identifier of the for the document
language: (str) one of (de, fr, it)
year: (int) the publication year
chamber: (str) the chamber of the case
region: (str) the region of the case
origin_chamber: (str) the chamber of the origin case
origin_court: (str) the court of the origin case
origin_canton:  (str) the canton of the origin case
law_area: (str) the law area of the case
law_sub_area:(str) the law sub area of the case
bge_label: (str) critical or non-critical
citation_label: (str) critical-1, critical-2, critical-3, critical-4, non-critical
facts: (str) the facts of the case
considerations: (str) the considerations of the case
rulings: (str) the rulings of the case

数据实例

[需要更多信息]

数据字段

[需要更多信息]

数据拆分

数据集按日期进行分割

  • 训练集:2002-2015
  • 验证集:2016-2017
  • 测试集:2018-2022
Language Subset Number of Documents (Training/Validation/Test)
German de 81'264 (56592 / 19601 / 5071)
French fr 49'354 (29263 / 11117 / 8974)
Italian it 7913 (5220 / 1901 / 792)

数据集创建

策划理由

该数据集由Stern(2023)创建。

数据来源

初始数据收集和归一化

原始数据以未加工格式(HTML)从瑞士联邦最高法院( https://www.bger.ch )发布。这些文档是从Entscheidsuche门户( https://entscheidsuche.ch )以HTML格式下载的。

谁是源语言的产生者?

裁决由法官和助理以庭审语言撰写。

注释

注释过程

bge_label:

  • 提取bge标题中的所有bger_references(有关bge的信息,请参见rcds/swiss_rulings)。
  • 将bger文件名与找到的引用进行比较
  • 引用标签:

  • 计算所有bger案例的引用并加权
  • 将引用的案例分为四个不同的类别,取决于引用数量
  • 谁是标注者?

    Stern处理数据并引入了bge和引用标签元数据由瑞士联邦最高法院( https://www.bger.ch )发布。

    个人和敏感信息

    该数据集包含瑞士联邦最高法院的公开法律裁决。根据以下准则,法院在发布之前对个人或敏感信息进行了去匿名处理: https://www.bger.ch/home/juridiction/anonymisierungsregeln.html

    数据使用注意事项

    数据集的社会影响

    [需要更多信息]

    偏见讨论

    [需要更多信息]

    其他已知限制

    [需要更多信息]

    附加信息

    数据集策划者

    [需要更多信息]

    许可信息

    我们在符合法院许可协议( https://www.bger.ch/files/live/sites/bger/files/pdf/de/urteilsveroeffentlichung_d.pdf )的情况下以CC-BY-4.0发布数据© 瑞士联邦最高法院,2002-2022

    本网站的编辑内容版权归瑞士联邦最高法院所有,在创作共享署名4.0国际许可下发布。这意味着您可以重用内容,但必须标明来源并指出您所做的任何更改。来源: https://www.bger.ch/files/live/sites/bger/files/pdf/de/urteilsveroeffentlichung_d.pdf

    引用信息

    请引用我们的 ArXiv-Preprint

    @misc{rasiah2023scale,
          title={SCALE: Scaling up the Complexity for Advanced Language Model Evaluation}, 
          author={Vishvaksenan Rasiah and Ronja Stern and Veton Matoshi and Matthias Stürmer and Ilias Chalkidis and Daniel E. Ho and Joel Niklaus},
          year={2023},
          eprint={2306.09237},
          archivePrefix={arXiv},
          primaryClass={cs.CL}
    }
    

    贡献

    感谢 @Stern5497 添加了此数据集。