数据集:

rcds/swiss_judgment_prediction

计算机处理:

multilingual

大小:

10K<n<100K

语言创建人:

found

批注创建人:

found

源数据集:

original
英文

"SwissJudgmentPrediction" 数据集卡

数据集摘要

文档

Swiss-Judgment-Prediction 是一个多语言的、历时的数据集,包含85K个瑞士联邦最高法院(FSCS)案例,每个案例都带有相应的判决结果(批准/驳回)的二元标签,提供了一个具有挑战性的文本分类任务。此外,我们还提供了额外的元数据,包括刊载年份、法律领域和案件发生地的州,以促进关于法律自然语言处理的鲁棒性和公平性研究。

支持的任务和排行榜

SwissJudgmentPrediction 可用于法律判决预测任务。

该数据集尚未成为已建立的基准。

语言

瑞士有四种官方语言,其中德语、法语和意大利语是超过1000份瑞士联邦最高法院判决中的语言。判决由法官和书记员使用案件审理语言书写。

数据集结构

在第2版中,我们使用 EasyNMT 为所有文档添加了德语、法语、意大利语和英语的机器翻译数据,作为额外的训练集。

数据实例

数据集的多语言使用

当数据集在多语言环境中使用时,选择 'all_languages' 标志:

from datasets import load_dataset
dataset = load_dataset('swiss_judgment_prediction', 'all_languages')
{
  "id": 48757,
  "year": 2015,
  "facts": "Sachverhalt: A. X._ war bei der Krankenversicherung C._ taggeldversichert. Infolge einer Arbeitsunf\u00e4higkeit leistete ihm die C._ vom 30. Juni 2011 bis am 28. Juni 2013 Krankentaggelder, wobei die Leistungen bis am 30. September 2012 auf Grundlage einer Arbeitsunf\u00e4higkeit von 100% und danach basierend auf einer Arbeitsunf\u00e4higkeit von 55% erbracht wurden. Die Neueinsch\u00e4tzung der Arbeitsf\u00e4higkeit erfolgte anhand eines Gutachtens der D._ AG vom 27. August 2012, welches im Auftrag der C._ erstellt wurde. X._ machte daraufhin gegen\u00fcber der C._ geltend, er sei entgegen dem Gutachten auch nach dem 30. September 2012 zu 100% arbeitsunf\u00e4hig gewesen. Ferner verlangte er von der D._ AG zwecks externer \u00dcberpr\u00fcfung des Gutachtens die Herausgabe s\u00e4mtlicher diesbez\u00fcglicher Notizen, Auswertungen und Unterlagen. A._ (als Gesch\u00e4ftsf\u00fchrer der D._ AG) und B._ (als f\u00fcr das Gutachten medizinisch Verantwortliche) antworteten ihm, dass sie alle Unterlagen der C._ zugestellt h\u00e4tten und dass allf\u00e4llige Fragen zum Gutachten direkt der C._ zu stellen seien. X._ reichte am 2. Januar 2014 eine Strafanzeige gegen A._ und B._ ein. Er wirft diesen vor, ihn durch die Nichtherausgabe der Dokumente und durch Behinderung des IV-Verfahrens gen\u00f6tigt, Daten besch\u00e4digt bzw. vernichtet und ein falsches \u00e4rztliches Zeugnis ausgestellt zu haben. Zudem h\u00e4tten sie durch die Verz\u00f6gerung des IV-Verfahrens und insbesondere durch das falsche \u00e4rztliche Zeugnis sein Verm\u00f6gen arglistig gesch\u00e4digt. B. Die Staatsanwaltschaft des Kantons Bern, Region Oberland, nahm das Verfahren wegen N\u00f6tigung, Datenbesch\u00e4digung, falschem \u00e4rztlichem Zeugnis und arglistiger Verm\u00f6genssch\u00e4digung mit Verf\u00fcgung vom 10. November 2014 nicht an die Hand. Das Obergericht des Kantons Bern wies die von X._ dagegen erhobene Beschwerde am 27. April 2015 ab, soweit darauf einzutreten war. C. X._ beantragt mit Beschwerde in Strafsachen, der Beschluss vom 27. April 2015 sei aufzuheben und die Angelegenheit zur korrekten Ermittlung des Sachverhalts an die Staatsanwaltschaft zur\u00fcckzuweisen. Er stellt zudem den sinngem\u00e4ssen Antrag, das bundesgerichtliche Verfahren sei w\u00e4hrend der Dauer des konnexen Strafverfahrens gegen eine Teilgutachterin und des ebenfalls konnexen Zivil- oder Strafverfahrens gegen die C._ wegen Einsichtsverweigerung in das mutmasslich gef\u00e4lschte Originalgutachten zu sistieren. X._ ersucht um unentgeltliche Rechtspflege. ",
  "labels": 0,  # dismissal
  "language": "de",
  "region": "Espace Mittelland",
  "canton": "be",
  "legal area": "penal law"
}

数据集的单语言使用

当数据集在单语言环境中使用时,选择三种支持的语言中的 ISO 语言代码之一。例如:

from datasets import load_dataset
dataset = load_dataset('swiss_judgment_prediction', 'de')
{
  "id": 48757,
  "year": 2015,
  "facts": "Sachverhalt: A. X._ war bei der Krankenversicherung C._ taggeldversichert. Infolge einer Arbeitsunf\u00e4higkeit leistete ihm die C._ vom 30. Juni 2011 bis am 28. Juni 2013 Krankentaggelder, wobei die Leistungen bis am 30. September 2012 auf Grundlage einer Arbeitsunf\u00e4higkeit von 100% und danach basierend auf einer Arbeitsunf\u00e4higkeit von 55% erbracht wurden. Die Neueinsch\u00e4tzung der Arbeitsf\u00e4higkeit erfolgte anhand eines Gutachtens der D._ AG vom 27. August 2012, welches im Auftrag der C._ erstellt wurde. X._ machte daraufhin gegen\u00fcber der C._ geltend, er sei entgegen dem Gutachten auch nach dem 30. September 2012 zu 100% arbeitsunf\u00e4hig gewesen. Ferner verlangte er von der D._ AG zwecks externer \u00dcberpr\u00fcfung des Gutachtens die Herausgabe s\u00e4mtlicher diesbez\u00fcglicher Notizen, Auswertungen und Unterlagen. A._ (als Gesch\u00e4ftsf\u00fchrer der D._ AG) und B._ (als f\u00fcr das Gutachten medizinisch Verantwortliche) antworteten ihm, dass sie alle Unterlagen der C._ zugestellt h\u00e4tten und dass allf\u00e4llige Fragen zum Gutachten direkt der C._ zu stellen seien. X._ reichte am 2. Januar 2014 eine Strafanzeige gegen A._ und B._ ein. Er wirft diesen vor, ihn durch die Nichtherausgabe der Dokumente und durch Behinderung des IV-Verfahrens gen\u00f6tigt, Daten besch\u00e4digt bzw. vernichtet und ein falsches \u00e4rztliches Zeugnis ausgestellt zu haben. Zudem h\u00e4tten sie durch die Verz\u00f6gerung des IV-Verfahrens und insbesondere durch das falsche \u00e4rztliche Zeugnis sein Verm\u00f6gen arglistig gesch\u00e4digt. B. Die Staatsanwaltschaft des Kantons Bern, Region Oberland, nahm das Verfahren wegen N\u00f6tigung, Datenbesch\u00e4digung, falschem \u00e4rztlichem Zeugnis und arglistiger Verm\u00f6genssch\u00e4digung mit Verf\u00fcgung vom 10. November 2014 nicht an die Hand. Das Obergericht des Kantons Bern wies die von X._ dagegen erhobene Beschwerde am 27. April 2015 ab, soweit darauf einzutreten war. C. X._ beantragt mit Beschwerde in Strafsachen, der Beschluss vom 27. April 2015 sei aufzuheben und die Angelegenheit zur korrekten Ermittlung des Sachverhalts an die Staatsanwaltschaft zur\u00fcckzuweisen. Er stellt zudem den sinngem\u00e4ssen Antrag, das bundesgerichtliche Verfahren sei w\u00e4hrend der Dauer des konnexen Strafverfahrens gegen eine Teilgutachterin und des ebenfalls konnexen Zivil- oder Strafverfahrens gegen die C._ wegen Einsichtsverweigerung in das mutmasslich gef\u00e4lschte Originalgutachten zu sistieren. X._ ersucht um unentgeltliche Rechtspflege. ",
  "labels": 0,  # dismissal
  "language": "de",
  "region": "Espace Mittelland",
  "canton": "be",
  "legal area": "penal law"
}

数据字段

数据集的多语言使用

对于文档(训练集、验证集、测试集),提供以下数据字段:

id:(int)文档的唯一标识符年份:(int)刊载年份文本:(str)案情描述标签:(类别标签)判决结果:0(驳回)或1(批准)语言:(str)其中之一(de、fr、it)地区:(str)下级法院的地区州:(str)下级法院的州法律领域:(str)案件的法律领域

数据集的单语言使用

对于文档(训练集、验证集、测试集),提供以下数据字段:

id:(int)文档的唯一标识符年份:(int)刊载年份文本:(str)案情描述标签:(类别标签)判决结果:0(驳回)或1(批准)语言:(str)其中之一(de、fr、it)地区:(str)下级法院的地区州:(str)下级法院的州法律领域:(str)案件的法律领域

数据拆分

Language Subset Number of Documents (Training/Validation/Test)
German de 35'452 / 4'705 / 9'725
French fr 21'179 / 3'095 / 6'820
Italian it 3'072 / 408 / 812
All all 59'709 / 8'208 / 17'357
MT German mt_de 24'251 / 0 / 0
MT French mt_fr 38'524 / 0 / 0
MT Italian mt_it 56'631 / 0 / 0
MT All all+mt 238'818 / 8'208 / 17'357

数据集创建

策划原因

该数据集由Niklaus等人(2021)策划。

数据来源

初始数据收集和规范化

原始数据可以从瑞士联邦最高法院( https://www.bger.ch )以未经处理的HTML格式获得。这些文件从Entscheidsuche门户( https://entscheidsuche.ch )以HTML格式下载。

谁是源语言生成者?

瑞士有四种官方语言,其中德语、法语和意大利语在1000多份瑞士联邦最高法院的判决文件中被使用。判决是由法官和书记员用案件进行语言书写的。

注释

注释过程

判决结果使用解析器和正则表达式进行注释。

谁是注释者?

Joel Niklaus 和 Adrian Jörg 注释了二元化的判决结果。元数据由瑞士联邦最高法院( https://www.bger.ch )发布。

个人和敏感信息

该数据集包含来自瑞士联邦最高法院的公开可用的法院判决。根据以下指南,法院在发布前对个人或敏感信息进行了去标识化处理: https://www.bger.ch/home/juridiction/anonymisierungsregeln.html

使用数据的注意事项

数据集的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策划者

Niklaus等人(2021)

授权信息

我们根据CC-BY-4.0发布数据,符合法院授权( https://www.bger.ch/files/live/sites/bger/files/pdf/de/urteilsveroeffentlichung_d.pdf

瑞士联邦最高法院,2000-2020版权所有

本网站的编辑内容和合并文本版权归瑞士联邦最高法院所有,根据知识共享署名4.0国际许可协议发布。这意味着您可以重新使用内容,但必须注明出处,并说明您所做的任何更改。

来源: https://www.bger.ch/files/live/sites/bger/files/pdf/de/urteilsveroeffentlichung_d.pdf

引用信息

Joel Niklaus, Ilias Chalkidis, 和 Matthias Stürmer. Swiss-Judgment-Prediction: A Multilingual Legal Judgment Prediction Benchmark Proceedings of the 2021 Natural Legal Language Processing Workshop. Punta Cana, Dominican Republic. 2021

@InProceedings{niklaus-etal-2021-swiss,
  author = {Niklaus, Joel
                and Chalkidis, Ilias
                and Stürmer, Matthias},
  title = {Swiss-Judgment-Prediction: A Multilingual Legal Judgment Prediction Benchmark},
  booktitle = {Proceedings of the 2021 Natural Legal Language Processing Workshop},
  year = {2021},
  location = {Punta Cana, Dominican Republic},
}

和新引文

@misc{niklaus2022empirical,
    title={An Empirical Study on Cross-X Transfer for Legal Judgment Prediction},
    author={Joel Niklaus and Matthias Stürmer and Ilias Chalkidis},
    year={2022},
    eprint={2209.12325},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

贡献者

感谢 @joelniklaus 添加了此数据集。