数据集:

rcds/swiss_citation_extraction

英文

Swiss Citation Extraction 数据集卡片

数据集摘要

Swiss Citation Extraction 是一个包含13.1万条瑞士联邦最高法院(FSCS)判决案例的多语言、时序性数据集。该数据集是一个具有挑战性的标记分类任务的一部分。

支持的任务和排行榜

语言

瑞士有四种官方语言,其中德语、法语和意大利语都有代表性。判决书是由法官和书记员用其所处程序的语言编写的。

Language Subset Number of Documents
German de 85K
French fr 38K
Italian it 8K

数据集结构

数据字段

decision_id: (string)
considerations: (sequence)
NER_labels: (sequence)
law_area: (string)
language: (string)
year: (int64)
chamber: (string)
region: (string)

数据实例

[需要更多信息]

数据字段

[需要更多信息]

数据拆分

数据集创建

策展理由

源数据

初始数据收集和规范化

原始数据以未经处理的HTML格式发布,来自瑞士联邦最高法院( https://www.bger.ch )。从Entscheidsuche门户网站( https://entscheidsuche.ch )下载的文档为HTML格式。

谁是源语言制片人?

判决书是由法官和书记员用其所处程序的语言编写的。

注释

注释过程 谁是注释者?

元数据由瑞士联邦最高法院( https://www.bger.ch )发布。

个人和敏感信息

该数据集包含瑞士联邦最高法院的公开可获得的判决。经过法院的匿名化处理,根据以下指南,个人或敏感信息已在发表之前进行了匿名化处理: https://www.bger.ch/home/juridiction/anonymisierungsregeln.html

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策展人

[需要更多信息]

许可信息

我们以CC-BY-4.0许可发布数据,符合法院许可( https://www.bger.ch/files/live/sites/bger/files/pdf/de/urteilsveroeffentlichung_d.pdf )©瑞士联邦最高法院,2002-2022

本网站的编辑内容和统一文本版权归瑞士联邦最高法院所有,根据知识共享署名4.0国际协议发布。这意味着您可以重新使用内容,只要您承认来源并指明您的任何更改。来源: https://www.bger.ch/files/live/sites/bger/files/pdf/de/urteilsveroeffentlichung_d.pdf

引文信息

请引用我们的 ArXiv-Preprint

@misc{rasiah2023scale,
      title={SCALE: Scaling up the Complexity for Advanced Language Model Evaluation}, 
      author={Vishvaksenan Rasiah and Ronja Stern and Veton Matoshi and Matthias Stürmer and Ilias Chalkidis and Daniel E. Ho and Joel Niklaus},
      year={2023},
      eprint={2306.09237},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

贡献