数据集:

rcds/MultiLegalSBD

任务:

标记分类

语言:

大小:

100K<n<1M

预印本库:

arxiv:2305.01211

数据集介绍文件清单

英文

数据集名称的数据集卡片

数据集摘要

这是一个包含约130,000个标注句子边界的多语言数据集。它包含6种不同语言的法律和法庭裁决。

支持的任务和排行榜

[需要更多信息]

语言

英语、法语、意大利语、德语、葡萄牙语、西班牙语

数据集结构

它的结构如下所示：{language}_{type}_{shard}.jsonl.xz

type 是以下之一：

laws
judgements

使用数据集的方式如下：

from datasets import load_dataset
config = 'fr_laws' #{language}_{type} | to load all languages and/or all types, use 'all_all'
dataset = load_dataset('rdcs/MultiLegalSBD', config)

数据实例

[需要更多信息]

数据字段

text: 原始文本
spans:
- start: 第一个字符的偏移量
- end: 最后一个字符的偏移量
- label: 仅有一个标签 -> 句子
- token_start: 第一个token的id
- token_end: 最后一个token的id
tokens:
- text: token文本
- start: 第一个字符的偏移量
- end: 最后一个字符的偏移量
- id: token id
- ws: token后面是否有空格

数据划分

只有一个可用的划分

数据集创建

策划理由

[需要更多信息]

源数据

初始数据收集和归一化

[需要更多信息]

源语言的制作者是谁？

[需要更多信息]

注解

注释过程

[需要更多信息]

注释者是谁？

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏差讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策划者

[需要更多信息]

许可信息

[需要更多信息]

引用信息

请引用我们的 ArXiv-Preprint

@misc{brugger2023multilegalsbd,
      title={MultiLegalSBD: A Multilingual Legal Sentence Boundary Detection Dataset}, 
      author={Tobias Brugger and Matthias Stürmer and Joel Niklaus},
      year={2023},
      eprint={2305.01211},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

贡献

[需要更多信息]

作者:

rcds

数据集大小:

26.3 MB