数据集:

aquamuse

任务:

task_categories:other

问答

文生文

子任务:

abstractive-qa extractive-qa

语言:

计算机处理:

monolingual

大小:

1K<n<10K

语言创建人:

crowdsourced expert-generated

批注创建人:

crowdsourced expert-generated

源数据集:

extended|natural_questions extended|other-Common-Crawl original

预印本库:

arxiv:2010.12694

其他:

query-based-multi-document-summarization

许可:

license:unknown

数据集介绍文件清单

英文

AQuaMuSe 数据集卡片

数据集摘要

AQuaMuSe 是一种新颖的可扩展方法，使用问答数据集（Google Natural Questions）和大规模文档语料库（Common Crawl），自动挖掘基于双重查询的多文档摘要数据集，用于抽取式和生成式摘要。

此数据集包含根据《 AQuaMuSe paper 》中描述的抽象和抽取式基于查询的多文档摘要自动生成的数据集的版本。

支持的任务和排行榜

生成式和抽取式基于查询的多文档摘要
问答

语言

en：英语

数据集结构

数据实例

input_urls: 一组字符串特征。
query: 字符串特征。
target: 字符串特征

示例：

{
    'input_urls': ['https://boxofficebuz.com/person/19653-charles-michael-davis'],
     'query': 'who is the actor that plays marcel on the originals',
     'target': "In February 2013, it was announced that Davis was cast in a lead role on The CW's new show The 
Originals, a spinoff of The Vampire Diaries, centered on the Original Family as they move to New Orleans, where 
Davis' character (a vampire named Marcel) currently rules."
}

数据字段

input_urls: 一组字符串特征。
输入文档的URL列表，指向要进行摘要的 Common Crawl 。
依赖项：文档URL引用了 Common Crawl June 2017 Archive 。
query: 字符串特征。
用作摘要上下文的输入查询。这是由 Natural Questions 的用户查询派生而来。
target: 字符串特征
摘要目标，从 Natural Questions 的长答案派生而来。

数据拆分

此数据集有两个高级配置：抽象和提取
每个配置都有训练、开发和测试数据拆分
数据的原始格式为 TFrecords ，已被解析为符合数据实例中指定格式的数据

数据集创建

策划理由

此数据集是根据《 AQuaMuSe paper 》中描述的抽象和抽取式基于查询的多文档摘要自动生成的数据集。

资源数据

初始数据收集和归一化

[需要更多信息]

资源语言的生产者是谁？

[需要更多信息]

注释

注释过程

[需要更多信息]

注释者是谁？

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

AQuaMuSe 数据集卡片

数据集摘要

支持的任务和排行榜

语言

数据集结构

数据实例

数据字段

数据拆分

数据集创建

策划理由

资源数据

注释

个人和敏感信息

使用数据的注意事项

数据的社会影响

偏见讨论

其他已知限制

更多信息

数据集策划者

许可信息

引用信息

贡献