数据集:
allenai/multi_lexsum
任务:
摘要生成语言:
en计算机处理:
monolingual语言创建人:
found批注创建人:
expert-generated源数据集:
original预印本库:
arxiv:2206.10883许可:
odc-byMulti-LexSum 数据集是包含 9,280 个法律案例摘要的集合。Multi-LexSum 在多个目标摘要方面与其他数据集不同,每个摘要都具有不同的粒度(从一句话的“极端”摘要到超过五百个词的多段落叙述)。由于源文件的长度通常超过两百页,它提供了一个具有挑战性的多文档摘要任务。与其他(半)自动构建的摘要数据集不同,Multi-LexSum 由专家撰写的摘要组成:这些专家 - 律师和法律学生 - 接受过精心制定的指导方针的培训,并由额外的专家进行审核以确保质量。
英语
数据集包含一系列实例(案例);每个实例包含以下数据:
Field | Description |
---|---|
id | (str) The case ID |
sources | (List[str]) A list of strings for the text extracted from the source documents |
summary/long | (str) The long (multi-paragraph) summary for this case |
summary/short | (Optional[str]) The short (one-paragraph) summary for this case |
summary/tiny | (Optional[str]) The tiny (one-sentence) summary for this case |
请查看下面的示例用法以加载数据:
from datasets import load_dataset multi_lexsum = load_dataset("allenai/multi_lexsum", name="v20230518") # Download multi_lexsum locally and load it as a Dataset object example = multi_lexsum["validation"][0] # The first instance of the dev set example["sources"] # A list of source document text for the case for sum_len in ["long", "short", "tiny"]: print(example["summary/" + sum_len]) # Summaries of three lengths print(example['case_metadata']) # The corresponding metadata for a case in a dict
Instances | Source Documents (D) | Long Summaries (L) | Short Summaries (S) | Tiny Summaries (T) | Total Summaries | |
---|---|---|---|---|---|---|
Train (70%) | 3,177 | 28,557 | 3,177 | 2,210 | 1,130 | 6,517 |
Test (20%) | 908 | 7,428 | 908 | 616 | 312 | 1,836 |
Dev (10%) | 454 | 4,134 | 454 | 312 | 161 | 927 |
有关数据集创建、源数据、注释和使用注意事项的详细信息,请参阅我们的 dataset sheet 。
该数据集是由密歇根大学的民权诉讼信息清理中心(CRLC)与艾伦人工智能研究所合作创建的。Multi-LexSum 基于Clearinghouse发布的数据集,旨在向公众提供有关民权诉讼的信息。
Multi-LexSum 数据集在 Open Data Commons Attribution License (ODC-By) 下分发。案例摘要和元数据在 Creative Commons Attribution License (CC BY-NC) 下获得许可,源文件已经属于公共领域。希望获得摘要和元数据许可的商业用户可以联系 info@clearinghouse.net,这将允许免费使用,但限制摘要的重新发布。用于下载和加载数据集的相应代码在 Apache License 2.0 下获得许可。
@article{Shen2022MultiLexSum, author = {Zejiang Shen and Kyle Lo and Lauren Yu and Nathan Dahlberg and Margo Schlanger and Doug Downey}, title = {Multi-LexSum: Real-World Summaries of Civil Rights Lawsuits at Multiple Granularities}, journal = {CoRR}, volume = {abs/2206.10883}, year = {2022},**** url = {https://doi.org/10.48550/arXiv.2206.10883}, doi = {10.48550/arXiv.2206.10883} }
Version | Description |
---|---|
v20230518 | The v1.1 release including case and source document metadata |
v20220616 | The initial v1.0 release |