数据集:

rcds/swiss_law_area_prediction

计算机处理:

multilingual

大小:

100K<n<1M

语言创建人:

expert-generated

批注创建人:

machine-generated

源数据集:

original

预印本库:

arxiv:2306.09237
英文

法律领域预测数据集卡片

数据集概述

该数据集包含需要分类为公共法、民事法、刑事法和社交法四个主要法律领域的案例。

这些案例可以进一步分类为子领域:

"public": ['Tax', 'Urban Planning and Environmental', 'Expropriation', 'Public Administration', 'Other Fiscal'],
"civil": ['Rental and Lease', 'Employment Contract', 'Bankruptcy', 'Family', 'Competition and Antitrust', 'Intellectual Property'],
'criminal': ['Substantive Criminal', 'Criminal Procedure']

支持的任务和排行榜

法律领域预测可以用作文本分类任务。

语言

瑞士有四种官方语言,其中德语、法语和意大利语都有所代表。法官和书记员用所属程序语言撰写判决书。

Language Subset Number of Documents
German de 127K
French fr 156K
Italian it 46K

数据集结构

  • 决定编号:决定的唯一标识符
  • 事实:决定的事实部分
  • 考虑因素:决定的考虑因素部分
  • 法律领域:决定的标签(主要法律领域)
  • 法律子领域:决定的法律子领域
  • 语言:决定的语言
  • 年份:决定的年份
  • 法院:决定的法院
  • 工作室:决定的工作室
  • 州:决定的州
  • 地区:决定的地区

数据字段

[需要更多信息]

数据实例

[需要更多信息]

数据字段

[需要更多信息]

数据拆分

数据集按日期进行分层拆分

  • 训练集:2002-2015
  • 验证集:2016-2017
  • 测试集:2018-2022

数据集创建

策划理由

源数据

初始数据收集和规范化

原始数据以未经处理的HTML格式(HTML)从瑞士联邦最高法院( https://www.bger.ch )公开发布。文件通过Entscheidsuche门户网站( https://entscheidsuche.ch )的HTML格式进行下载。

谁是源语言制作人?

判决书是由法官和书记员以所属程序语言撰写的。

注释

注释过程 谁是标注者?

个人和敏感信息

该数据集包含来自瑞士联邦最高法院的公开可用法院决定。根据以下指南,法院在发布前对个人或敏感信息进行了匿名化处理: https://www.bger.ch/home/juridiction/anonymisierungsregeln.html

使用数据时的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策划者

[需要更多信息]

许可信息

我们根据CC-BY-4.0发布数据,该许可符合法院许可条款( https://www.bger.ch/files/live/sites/bger/files/pdf/de/urteilsveroeffentlichung_d.pdf )©瑞士联邦最高法院,2002-2022

此网站的编辑内容和汇编文本的版权归瑞士联邦最高法院所有,受Creative Commons Attribution 4.0 International许可。这意味着您可以重新使用内容,前提是您承认出处并指明您所做的任何更改。来源: https://www.bger.ch/files/live/sites/bger/files/pdf/de/urteilsveroeffentlichung_d.pdf

引用信息

请引用我们的 ArXiv-Preprint

@misc{rasiah2023scale,
      title={SCALE: Scaling up the Complexity for Advanced Language Model Evaluation}, 
      author={Vishvaksenan Rasiah and Ronja Stern and Veton Matoshi and Matthias Stürmer and Ilias Chalkidis and Daniel E. Ho and Joel Niklaus},
      year={2023},
      eprint={2306.09237},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

贡献