数据集:

allenai/multi_lexsum

语言:

en

计算机处理:

monolingual

语言创建人:

found

批注创建人:

expert-generated

源数据集:

original

预印本库:

arxiv:2206.10883

许可:

odc-by
英文

Multi-LexSum 数据集卡

在 NeurIPS 2022 上的讨论

数据集摘要

Multi-LexSum 数据集是包含 9,280 个法律案例摘要的集合。Multi-LexSum 在多个目标摘要方面与其他数据集不同,每个摘要都具有不同的粒度(从一句话的“极端”摘要到超过五百个词的多段落叙述)。由于源文件的长度通常超过两百页,它提供了一个具有挑战性的多文档摘要任务。与其他(半)自动构建的摘要数据集不同,Multi-LexSum 由专家撰写的摘要组成:这些专家 - 律师和法律学生 - 接受过精心制定的指导方针的培训,并由额外的专家进行审核以确保质量。

语言

英语

数据集

数据字段

数据集包含一系列实例(案例);每个实例包含以下数据:

Field Description
id (str) The case ID
sources (List[str]) A list of strings for the text extracted from the source documents
summary/long (str) The long (multi-paragraph) summary for this case
summary/short (Optional[str]) The short (one-paragraph) summary for this case
summary/tiny (Optional[str]) The tiny (one-sentence) summary for this case

请查看下面的示例用法以加载数据:

from datasets import load_dataset

multi_lexsum = load_dataset("allenai/multi_lexsum", name="v20230518")
# Download multi_lexsum locally and load it as a Dataset object 

example = multi_lexsum["validation"][0] # The first instance of the dev set 
example["sources"] # A list of source document text for the case

for sum_len in ["long", "short", "tiny"]:
    print(example["summary/" + sum_len]) # Summaries of three lengths

  print(example['case_metadata']) # The corresponding metadata for a case in a dict 

数据拆分

Instances Source Documents (D) Long Summaries (L) Short Summaries (S) Tiny Summaries (T) Total Summaries
Train (70%) 3,177 28,557 3,177 2,210 1,130 6,517
Test (20%) 908 7,428 908 616 312 1,836
Dev (10%) 454 4,134 454 312 161 927

数据集表格(数据表)

有关数据集创建、源数据、注释和使用注意事项的详细信息,请参阅我们的 dataset sheet

其他信息

数据集创建者

该数据集是由密歇根大学的民权诉讼信息清理中心(CRLC)与艾伦人工智能研究所合作创建的。Multi-LexSum 基于Clearinghouse发布的数据集,旨在向公众提供有关民权诉讼的信息。

许可信息

Multi-LexSum 数据集在 Open Data Commons Attribution License (ODC-By) 下分发。案例摘要和元数据在 Creative Commons Attribution License (CC BY-NC) 下获得许可,源文件已经属于公共领域。希望获得摘要和元数据许可的商业用户可以联系 info@clearinghouse.net,这将允许免费使用,但限制摘要的重新发布。用于下载和加载数据集的相应代码在 Apache License 2.0 下获得许可。

引用信息

@article{Shen2022MultiLexSum,
  author    = {Zejiang Shen and
               Kyle Lo and
               Lauren Yu and
               Nathan Dahlberg and
               Margo Schlanger and
               Doug Downey},
  title     = {Multi-LexSum: Real-World Summaries of Civil Rights Lawsuits at Multiple Granularities},
  journal   = {CoRR},
  volume    = {abs/2206.10883},
  year      = {2022},****
  url       = {https://doi.org/10.48550/arXiv.2206.10883},
  doi       = {10.48550/arXiv.2206.10883}
}

发布历史

Version Description
v20230518 The v1.1 release including case and source document metadata
v20220616 The initial v1.0 release