数据集:

rcds/swiss_legislation

英文

Swiss Legislation 数据集卡片

数据集摘要

Swiss Legislation 是一个多语言、时变的数据集,包含 36,000 条瑞士法律法规。这个数据集是一个具有挑战性的信息检索任务的一部分。

支持的任务和排行榜

语言

数据集中的文本总数为 35,698。数据集以 lexfind_v2.jsonl 格式保存。瑞士有四种官方语言,即德语、法语、意大利语和罗曼什语,还涵盖了一些英语法律。法律是由法律专家编写的。36,000 & 18,000 & 11,000 & 6,000 & 534 & 207 。

Language Subset Number of Documents
German de 18K
French fr 11K
Italian it 6K
Romanch rm 534
English en 207

数据集结构

数据字段

数据集中的每个条目都是一个字典,包含以下键:

  • canton :法律法规的来源州
    • 示例:"ag"
  • language :法律法规的语言
    • 示例:"de"
  • uuid :法律法规的唯一标识符
    • 示例:"ec312f57-05fe-4552-ba50-8c9c269e0f3b"
  • title :法律法规的标题
    • 示例:"Gesetz über die Geoinformation im Kanton Aargau"
  • short :法律法规的简要描述
    • 示例:"Kantonales Geoinformationsgesetz"
  • abbreviation :法律法规的缩写
    • 示例:"KGeoIG"
  • sr_number :法律法规的参考编号
    • 示例:"740.100"
  • is_active :法律法规当前是否有效
    • 示例:true
  • version_active_since :法律法规当前版本生效日期
    • 示例:"2021-09-01"
  • family_active_since :法律法规当前版本的家族生效日期
    • 示例:"2011-05-24"
  • version_inactive_since :法律法规当前版本失效日期
    • 示例:null
  • version_found_at :法律法规当前版本的发现日期
    • 示例:"2021-09-01"
  • pdf_url :法律法规的 PDF 链接
  • html_url :法律法规的 HTML 链接
  • pdf_content :法律法规的 PDF 内容
    • 示例:"740.100 - Gesetz über..."
  • html_content :法律法规的 HTML 内容
    • 示例:""
  • changes :法律法规的修改记录列表
    • 示例:[]
  • history :法律法规的历史记录列表
    • 示例:[]
  • quotes :法律法规的引用列表
    • 示例:[]

数据实例

[需要更多信息]

数据字段

[需要更多信息]

数据拆分

  • 'ch': 瑞士(联邦)- 15840
  • 'fr': 弗里堡 - 1633
  • 'be': 伯尔尼 - 1344
  • 'vs': 瓦莱州 - 1328
  • 'gr': 格劳宾登 - 1205
  • 'ne': 努沙泰尔 - 1115
  • 'zh': 苏黎世 - 974
  • 'bs': 巴塞尔城 - 899
  • 'bl': 巴塞尔乡村 - 863
  • 'vd': 沃州 - 870
  • 'ge': 日内瓦 - 837
  • 'sg': 圣加仑 - 764
  • 'ju': 茹拉 - 804
  • 'zg': 图格 - 632
  • 'ti': 提契诺 - 627
  • 'lu': 卢塞恩 - 584
  • 'so': 索洛图恩 - 547
  • 'ow': 上瓦尔登州 - 513
  • 'ik': 互渡州 - 510
  • 'sh': 萨夫豪森 - 469
  • 'gl': 格拉鲁斯 - 467
  • 'tg': 图尔高 - 453
  • 'sz': 施维茨 - 423
  • 'ai': 阿彭策尔内罗登 - 416
  • 'ag': 阿尔高 - 483
  • 'ar': 阿彭策尔外罗登 - 330
  • 'nw': 下瓦尔登州 - 401
  • 'ur': 乌里 - 367
  • 数据集创建

    策划理由

    数据来源

    初始数据收集和规范化

    原始数据是来自瑞士联邦最高法院的发布( https://www.bger.ch ),以未经处理的格式(HTML)发布。文件是从 Entscheidsuche 门户( https://entscheidsuche.ch )的 HTML 中下载的。

    谁是源语言的生成者?

    决定是由法官和书记员使用庭审语言编写的。

    标注

    标注过程由谁完成?

    元数据由瑞士联邦最高法院发布( https://www.bger.ch )。

    个人和敏感信息

    数据集包含来自瑞士联邦最高法院的公开可获取的法院决定。根据以下指导方针,法院在发布之前对个人或敏感信息进行了匿名处理: https://www.bger.ch/home/juridiction/anonymisierungsregeln.html

    使用数据的注意事项

    数据集的社会影响

    [需要更多信息]

    偏见讨论

    [需要更多信息]

    其他已知限制

    [需要更多信息]

    其他信息

    数据集策划者

    [需要更多信息]

    许可信息

    我们将数据以 CC-BY-4.0 许可发布,符合法院许可要求( https://www.bger.ch/files/live/sites/bger/files/pdf/de/urteilsveroeffentlichung_d.pdf )© 瑞士联邦最高法院,2002-2022

    本网站的编辑内容和汇编文本的版权归瑞士联邦最高法院所有,根据知识共享署名 4.0 国际许可证发布。这意味着您可以重新使用内容,前提是您承认来源并指出您所做的任何更改。来源: https://www.bger.ch/files/live/sites/bger/files/pdf/de/urteilsveroeffentlichung_d.pdf

    引用信息

    请引用我们的内容< ArXiv-Preprint

    @misc{rasiah2023scale,
          title={SCALE: Scaling up the Complexity for Advanced Language Model Evaluation}, 
          author={Vishvaksenan Rasiah and Ronja Stern and Veton Matoshi and Matthias Stürmer and Ilias Chalkidis and Daniel E. Ho and Joel Niklaus},
          year={2023},
          eprint={2306.09237},
          archivePrefix={arXiv},
          primaryClass={cs.CL}
    }