数据集:

rcds/MultiLegalSBD

英文

数据集名称的数据集卡片

数据集摘要

这是一个包含约130,000个标注句子边界的多语言数据集。它包含6种不同语言的法律和法庭裁决。

支持的任务和排行榜

[需要更多信息]

语言

英语、法语、意大利语、德语、葡萄牙语、西班牙语

数据集结构

它的结构如下所示:{language}_{type}_{shard}.jsonl.xz

type 是以下之一:

  • laws
  • judgements

使用数据集的方式如下:

from datasets import load_dataset
config = 'fr_laws' #{language}_{type} | to load all languages and/or all types, use 'all_all'
dataset = load_dataset('rdcs/MultiLegalSBD', config)

数据实例

[需要更多信息]

数据字段

  • text: 原始文本
  • spans:
    • start: 第一个字符的偏移量
    • end: 最后一个字符的偏移量
    • label: 仅有一个标签 -> 句子
    • token_start: 第一个token的id
    • token_end: 最后一个token的id
  • tokens:
    • text: token文本
    • start: 第一个字符的偏移量
    • end: 最后一个字符的偏移量
    • id: token id
    • ws: token后面是否有空格

数据划分

只有一个可用的划分

数据集创建

策划理由

[需要更多信息]

源数据

初始数据收集和归一化

[需要更多信息]

源语言的制作者是谁?

[需要更多信息]

注解

注释过程

[需要更多信息]

注释者是谁?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏差讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策划者

[需要更多信息]

许可信息

[需要更多信息]

引用信息

请引用我们的 ArXiv-Preprint

@misc{brugger2023multilegalsbd,
      title={MultiLegalSBD: A Multilingual Legal Sentence Boundary Detection Dataset}, 
      author={Tobias Brugger and Matthias Stürmer and Joel Niklaus},
      year={2023},
      eprint={2305.01211},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

贡献

[需要更多信息]