数据集:
GEM/wiki_cat_sum
任务:
摘要生成语言:
en计算机处理:
unknown语言创建人:
unknown批注创建人:
automatically-created源数据集:
original许可:
cc-by-sa-3.0您可以在 GEM Website 找到主要数据卡。
WikiCatSum是一个英文摘要数据集,涵盖了动物、公司和电影三个领域。它提供了多段文本与这些段落的摘要配对。
您可以通过以下方式加载数据集:
import datasets data = datasets.load_dataset('GEM/wiki_cat_sum')
数据加载器可以在 here 找到。
网站 论文 作者Laura Perez-Beltrachini、Yang Liu、Mirella Lapata(爱丁堡大学)Peter J. Liu、Mohammad Saleh、Etienne Pot、Ben Goodrich、Ryan Sepassi、Lukasz Kaiser、Noam Shazeer(谷歌Brain)
@inproceedings{perez-beltrachini-etal-2019-generating, title = "Generating Summaries with Topic Templates and Structured Convolutional Decoders", author = "Perez-Beltrachini, Laura and Liu, Yang and Lapata, Mirella", booktitle = "Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics", month = jul, year = "2019", address = "Florence, Italy", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/P19-1504", doi = "10.18653/v1/P19-1504", }联系人姓名
Laura Perez-Beltrachini
联系人电子邮件lperez@ed.ac.uk
有排行榜吗?否
否
覆盖的语言英语
许可证cc-by-sa-3.0:知识共享署名相同方式共享3.0国际许可证
预期使用目标多文档生成摘要的研究。
主要任务摘要
交际目标从一组相关文档的聚类中总结给定实体(电影、公司和动物领域)的最重要事实。
行业 ,学术
策展组织谷歌云平台,爱丁堡大学
数据集创建者Laura Perez-Beltrachini、Yang Liu、Mirella Lapata(爱丁堡大学)Peter J. Liu、Mohammad Saleh、Etienne Pot、Ben Goodrich、Ryan Sepassi、Lukasz Kaiser、Noam Shazeer(谷歌Brain)
资金谷歌云平台,欧洲研究理事会
谁将数据集添加到GEM中?Ronald Cardenas(爱丁堡大学)Laura Perez-Beltrachini(爱丁堡大学)
这是动物设定的一个截断示例:
{'gem_id': 'animal-train-1', 'gem_parent_id': 'animal-train-1', 'id': '2652', 'paragraphs': ["lytrosis (hulst) of louisiana vernon antoine brou jr. 2005. southern lepidopterists' news, 27: 7 ., ..."], 'references': ['lytrosis unitaria , the common lytrosis moth, is a species of moth of the geometridae family. it is found in north america, including arkansas, georgia, iowa , massachusetts, and wisconsin. the wingspan is about 50 mm. the larvae feed on rosa, crataegus, amelanchier, acer, quercus and viburnum species.'], 'summary': {'text': ['lytrosis unitaria , the common lytrosis moth , is a species of moth of the geometridae family .', 'it is found in north america , including arkansas , georgia , iowa , massachusetts , new hampshire , new jersey , new york , north carolina , ohio , oklahoma , ontario , pennsylvania , south carolina , tennessee , texas , virginia , west virginia and wisconsin .', 'the wingspan is about 50 mm .', 'the larvae feed on rosa , crataegus , amelanchier , acer , quercus and viburnum species . '], 'topic': [29, 20, 9, 8]}, 'target': 'lytrosis unitaria , the common lytrosis moth, is a species of moth of the geometridae family. it is found in north america, including arkansas, georgia, iowa , massachusetts, and wisconsin. the wingspan is about 50 mm. the larvae feed on rosa, crataegus, amelanchier, acer, quercus and viburnum species.', 'title': 'lytrosis unitaria'}数据拆分
训练集/验证集/测试集中的实例数量为50,938个/2,855个/2,831个
拆分标准数据被独立分割,即均匀分割成训练、验证和测试数据集。
评估模型在噪声(文档、摘要)配对和长输入上的性能。评估模型泛化和减少偏差的能力。
类似的数据集否
独特的语言覆盖范围否
数据集测量的能力泛化能力、减少偏差、事实正确性。
是
GEM修改添加了注释
修改详情我们为摘要句子提供了主题标签。
是否有其他拆分?否
以及这些论文中的所有参考。
泛化能力、减少偏差、事实正确性。
指标ROUGE ,BERT-Score ,MoverScore ,其他:其他指标
其他指标基于人的问答和排序(内容、流畅性和重复性)。
是否有以前的结果?是
其他评估方法如上所列。
相关的以前结果使用主题模板和结构卷积解码器生成摘要 https://arxiv.org/abs/1906.04687
无噪自我知识蒸馏用于文本摘要 https://arxiv.org/abs/2009.07032
数据集是WikiSum(Liu等人,2018年)数据集的子集,专注于三个领域(电影、公司和动物)中实体的摘要。这是多文档摘要,每个示例实体的输入输出对如下创建。输入是从实体的维基百科页面的参考部分的文档和通过用实体名称查询Google搜索引擎收集的前十个搜索结果的文档中收集的一组段落。输出摘要是实体的维基百科摘要。
交流目标生成具体领域的描述性摘要,其中讨论了特定主题,通常按特定顺序。
来自不同来源是
来源详情WikiSum(Liu等人,2018年)
其他
覆盖的主题数据集和任务侧重于三个领域实体的摘要:公司、电影和动物。
数据验证未验证
数据预处理摘要句子与主题标签关联。每个领域都有一个主题模型。
数据是否经过过滤?未过滤
自动创建的
注释服务?否
注释值每个摘要句子都附有主题标签。每个领域都有一个主题模型。这被用于指导分层解码器。
是否有质量控制?数据策展者验证
质量控制详情手动检查分配给句子的一部分主题的样本。主题数量是基于摘要模型的性能选择的。
否
使用数据的理由数据集基于维基百科和引用和从Web爬取的文档。
不太可能
有PII识别吗?无识别
否
否
否
是
分析工作的链接和摘要这个数据集基于维基百科,因此其他基于维基百科的数据集的偏见分析可能也适用于WikiCatSum。例如,请参阅这里关于ToTTo数据集的分析工作[1]。
[1] Automatic Construction of Evaluation Suites for Natural Language Generation Datasets https://openreview.net/forum?id=CSi1eu_2q96
公有领域
语言数据的版权限制公有领域