英文

AQuaMuSe 数据集卡片

数据集摘要

AQuaMuSe 是一种新颖的可扩展方法,使用问答数据集(Google Natural Questions)和大规模文档语料库(Common Crawl),自动挖掘基于双重查询的多文档摘要数据集,用于抽取式和生成式摘要。

此数据集包含根据《 AQuaMuSe paper 》中描述的抽象和抽取式基于查询的多文档摘要自动生成的数据集的版本。

支持的任务和排行榜

  • 生成式和抽取式基于查询的多文档摘要
  • 问答

语言

en:英语

数据集结构

数据实例

  • input_urls: 一组字符串特征。
  • query: 字符串特征。
  • target: 字符串特征

示例:

{
    'input_urls': ['https://boxofficebuz.com/person/19653-charles-michael-davis'],
     'query': 'who is the actor that plays marcel on the originals',
     'target': "In February 2013, it was announced that Davis was cast in a lead role on The CW's new show The 
Originals, a spinoff of The Vampire Diaries, centered on the Original Family as they move to New Orleans, where 
Davis' character (a vampire named Marcel) currently rules."
}

数据字段

数据拆分

  • 此数据集有两个高级配置:抽象和提取
  • 每个配置都有训练、开发和测试数据拆分
  • 数据的原始格式为 TFrecords ,已被解析为符合数据实例中指定格式的数据

数据集创建

策划理由

此数据集是根据《 AQuaMuSe paper 》中描述的抽象和抽取式基于查询的多文档摘要自动生成的数据集。

资源数据

初始数据收集和归一化

[需要更多信息]

资源语言的生产者是谁?

[需要更多信息]

注释

注释过程

[需要更多信息]

注释者是谁?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

更多信息

数据集策划者

数据集策划者是 sayalikulkarni ,他是该数据集官方 GitHub 存储库的贡献者,也是本数据集论文的作者之一。由于当前无法获取其他参与此数据集策划的作者的帐户处理方式,因此在此列出了论文的作者:Sayali Kulkarni、Sheide Chammas、Wan Zhu、Fei Sha和Eugene Ie。

许可信息

[需要更多信息]

引用信息

@misc{kulkarni2020aquamuse, title={AQuaMuSe: Automatically Generating Datasets for Query-Based Multi-Document Summarization}, author={Sayali Kulkarni and Sheide Chammas and Wan Zhu and Fei Sha and Eugene Ie}, year={2020}, eprint={2010.12694}, archivePrefix={arXiv}, primaryClass={cs.CL}}

贡献

感谢 @Karthik-Bhaskar 添加了此数据集。