这是一个包含约130,000个标注句子边界的多语言数据集。它包含6种不同语言的法律和法庭裁决。
[需要更多信息]
英语、法语、意大利语、德语、葡萄牙语、西班牙语
它的结构如下所示:{language}_{type}_{shard}.jsonl.xz
type 是以下之一:
使用数据集的方式如下:
from datasets import load_dataset config = 'fr_laws' #{language}_{type} | to load all languages and/or all types, use 'all_all' dataset = load_dataset('rdcs/MultiLegalSBD', config)
[需要更多信息]
只有一个可用的划分
[需要更多信息]
[需要更多信息]
源语言的制作者是谁?[需要更多信息]
[需要更多信息]
注释者是谁?[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
请引用我们的 ArXiv-Preprint
@misc{brugger2023multilegalsbd, title={MultiLegalSBD: A Multilingual Legal Sentence Boundary Detection Dataset}, author={Tobias Brugger and Matthias Stürmer and Joel Niklaus}, year={2023}, eprint={2305.01211}, archivePrefix={arXiv}, primaryClass={cs.CL} }
[需要更多信息]