数据集:

billsum

许可:

cc0-1.0

预印本库:

arxiv:1910.00523

源数据集:

original

批注创建人:

found

语言创建人:

found

大小:

10K<n<100K

计算机处理:

monolingual

语言:

en
英文

"billsum"的数据集卡片

数据集概要

BillSum是对美国国会和加利福尼亚州议案进行摘要。

有几个特征:

  • 文本:议案正文。
  • 摘要:议案摘要。
  • 标题:议案标题。US议案具有该特征,CA议案没有。
  • text_len:正文中的字符数。
  • sum_len:摘要中的字符数。

支持的任务和排行榜

More Information Needed

语言

More Information Needed

数据集结构

数据实例

默认
  • 下载的数据集文件大小:67.26 MB
  • 生成的数据集大小:272.42 MB
  • 总磁盘使用量:339.68 MB

'train'的示例如下所示。

{
    "summary": "some summary",
    "text": "some text.",
    "title": "An act to amend Section xxx."
}

数据字段

所有拆分的数据字段都是相同的。

默认
  • text:字符串特征。
  • summary:字符串特征。
  • title:字符串特征。

数据拆分

name train ca_test test
default 18949 1237 3269

数据集创建

策划理由

More Information Needed

源数据

初始数据收集和标准化

数据包括三个部分:美国训练议案、美国测试议案和加利福尼亚测试议案。美国议案是根据美国政府出版局(GPO)提供的服务收集的,根据CC0-1.0许可证使用。2015-2016届的加利福尼亚州议案可以从立法机构的 website 获取。

谁是源语言的制作人?

More Information Needed

注释

注释过程

More Information Needed

谁是注释者?

More Information Needed

个人和敏感信息

More Information Needed

使用数据的注意事项

数据的社会影响

More Information Needed

偏见讨论

More Information Needed

其他已知限制

More Information Needed

附加信息

数据集策划者

More Information Needed

授权信息

More Information Needed

引用信息

@misc{kornilova2019billsum,
    title={BillSum: A Corpus for Automatic Summarization of US Legislation},
    author={Anastassia Kornilova and Vlad Eidelman},
    year={2019},
    eprint={1910.00523},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

贡献

感谢 @thomwolf @jplu @lewtun 添加此数据集。