数据集:
aquamuse
AQuaMuSe 是一种新颖的可扩展方法,使用问答数据集(Google Natural Questions)和大规模文档语料库(Common Crawl),自动挖掘基于双重查询的多文档摘要数据集,用于抽取式和生成式摘要。
此数据集包含根据《 AQuaMuSe paper 》中描述的抽象和抽取式基于查询的多文档摘要自动生成的数据集的版本。
en:英语
示例:
{ 'input_urls': ['https://boxofficebuz.com/person/19653-charles-michael-davis'], 'query': 'who is the actor that plays marcel on the originals', 'target': "In February 2013, it was announced that Davis was cast in a lead role on The CW's new show The Originals, a spinoff of The Vampire Diaries, centered on the Original Family as they move to New Orleans, where Davis' character (a vampire named Marcel) currently rules." }
input_urls: 一组字符串特征。
输入文档的URL列表,指向要进行摘要的 Common Crawl 。
依赖项:文档URL引用了 Common Crawl June 2017 Archive 。
query: 字符串特征。
用作摘要上下文的输入查询。这是由 Natural Questions 的用户查询派生而来。
target: 字符串特征
摘要目标,从 Natural Questions 的长答案派生而来。
此数据集是根据《 AQuaMuSe paper 》中描述的抽象和抽取式基于查询的多文档摘要自动生成的数据集。
[需要更多信息]
资源语言的生产者是谁?[需要更多信息]
[需要更多信息]
注释者是谁?[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
数据集策划者是 sayalikulkarni ,他是该数据集官方 GitHub 存储库的贡献者,也是本数据集论文的作者之一。由于当前无法获取其他参与此数据集策划的作者的帐户处理方式,因此在此列出了论文的作者:Sayali Kulkarni、Sheide Chammas、Wan Zhu、Fei Sha和Eugene Ie。
[需要更多信息]
@misc{kulkarni2020aquamuse, title={AQuaMuSe: Automatically Generating Datasets for Query-Based Multi-Document Summarization}, author={Sayali Kulkarni and Sheide Chammas and Wan Zhu and Fei Sha and Eugene Ie}, year={2020}, eprint={2010.12694}, archivePrefix={arXiv}, primaryClass={cs.CL}}
感谢 @Karthik-Bhaskar 添加了此数据集。