数据集:

GEM/wiki_cat_sum

英文

GEM/wiki_cat_sum数据集卡

链接到主要数据卡

您可以在 GEM Website 找到主要数据卡。

数据集摘要

WikiCatSum是一个英文摘要数据集,涵盖了动物、公司和电影三个领域。它提供了多段文本与这些段落的摘要配对。

您可以通过以下方式加载数据集:

import datasets
data = datasets.load_dataset('GEM/wiki_cat_sum')

数据加载器可以在 here 找到。

网站

Github

论文

Arxiv

作者

Laura Perez-Beltrachini、Yang Liu、Mirella Lapata(爱丁堡大学)Peter J. Liu、Mohammad Saleh、Etienne Pot、Ben Goodrich、Ryan Sepassi、Lukasz Kaiser、Noam Shazeer(谷歌Brain)

数据集概述

数据及其文档的获取方式

网页

Github

下载

Website

论文

Arxiv

BibTex
@inproceedings{perez-beltrachini-etal-2019-generating,
    title = "Generating Summaries with Topic Templates and Structured Convolutional Decoders",
    author = "Perez-Beltrachini, Laura  and
      Liu, Yang  and
      Lapata, Mirella",
    booktitle = "Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics",
    month = jul,
    year = "2019",
    address = "Florence, Italy",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/P19-1504",
    doi = "10.18653/v1/P19-1504",
}
联系人姓名

Laura Perez-Beltrachini

联系人电子邮件

lperez@ed.ac.uk

有排行榜吗?

语言和预期使用目标

多语言?

覆盖的语言

英语

许可证

cc-by-sa-3.0:知识共享署名相同方式共享3.0国际许可证

预期使用目标

多文档生成摘要的研究。

主要任务

摘要

交际目标

从一组相关文档的聚类中总结给定实体(电影、公司和动物领域)的最重要事实。

鸣谢

策展组织类型

行业 ,学术

策展组织

谷歌云平台,爱丁堡大学

数据集创建者

Laura Perez-Beltrachini、Yang Liu、Mirella Lapata(爱丁堡大学)Peter J. Liu、Mohammad Saleh、Etienne Pot、Ben Goodrich、Ryan Sepassi、Lukasz Kaiser、Noam Shazeer(谷歌Brain)

资金

谷歌云平台,欧洲研究理事会

谁将数据集添加到GEM中?

Ronald Cardenas(爱丁堡大学)Laura Perez-Beltrachini(爱丁堡大学)

数据集结构

数据字段
  • id: 数据示例的ID
  • title: 维基百科文章的标题
  • paragraphs: 从爬取到的文本集合中的段落的排序列表
  • summary: 由一系列句子及其对应的主题标签组成
示例实例

这是动物设定的一个截断示例:

{'gem_id': 'animal-train-1',
 'gem_parent_id': 'animal-train-1',
 'id': '2652',
 'paragraphs': ["lytrosis (hulst) of louisiana vernon antoine brou jr. 2005. southern lepidopterists' news, 27: 7 ., ..."],
 'references': ['lytrosis unitaria , the common lytrosis moth, is a species of moth of the geometridae family. it is found in north america, including arkansas, georgia, iowa , massachusetts, and wisconsin. the wingspan is about 50 mm. the larvae feed on rosa, crataegus, amelanchier, acer, quercus and viburnum species.'],
 'summary': {'text': ['lytrosis unitaria , the common lytrosis moth , is a species of moth of the geometridae family .',
   'it is found in north america , including arkansas , georgia , iowa , massachusetts , new hampshire , new jersey , new york , north carolina , ohio , oklahoma , ontario , pennsylvania , south carolina , tennessee , texas , virginia , west virginia and wisconsin .',
   'the wingspan is about 50 mm .',
   'the larvae feed on rosa , crataegus , amelanchier , acer , quercus and viburnum species . '],
  'topic': [29, 20, 9, 8]},
 'target': 'lytrosis unitaria , the common lytrosis moth, is a species of moth of the geometridae family. it is found in north america, including arkansas, georgia, iowa , massachusetts, and wisconsin. the wingspan is about 50 mm. the larvae feed on rosa, crataegus, amelanchier, acer, quercus and viburnum species.',
 'title': 'lytrosis unitaria'}
数据拆分

训练集/验证集/测试集中的实例数量为50,938个/2,855个/2,831个

拆分标准

数据被独立分割,即均匀分割成训练、验证和测试数据集。

在GEM中的数据集

加入GEM的原因

为什么将数据集包含在GEM中?

评估模型在噪声(文档、摘要)配对和长输入上的性能。评估模型泛化和减少偏差的能力。

类似的数据集

独特的语言覆盖范围

数据集测量的能力

泛化能力、减少偏差、事实正确性。

GEM特定的策展

是否为GEM修改?

GEM修改

添加了注释

修改详情

我们为摘要句子提供了主题标签。

是否有其他拆分?

开始任务

资源指针

以及这些论文中的所有参考。

以前的结果

以前的结果

测量的模型能力

泛化能力、减少偏差、事实正确性。

指标

ROUGE ,BERT-Score ,MoverScore ,其他:其他指标

其他指标
  • Abstract/Copy
  • 基于(Goodrich等人,2019年)的得分和(Sorokin和Gurevych,2017年)的关系抽取系统的事实准确性。
提出的评估方法

基于人的问答和排序(内容、流畅性和重复性)。

是否有以前的结果?

其他评估方法

如上所列。

相关的以前结果

使用主题模板和结构卷积解码器生成摘要 https://arxiv.org/abs/1906.04687

无噪自我知识蒸馏用于文本摘要 https://arxiv.org/abs/2009.07032

数据集策展

原始策展

原始策展理由

数据集是WikiSum(Liu等人,2018年)数据集的子集,专注于三个领域(电影、公司和动物)中实体的摘要。这是多文档摘要,每个示例实体的输入输出对如下创建。输入是从实体的维基百科页面的参考部分的文档和通过用实体名称查询Google搜索引擎收集的前十个搜索结果的文档中收集的一组段落。输出摘要是实体的维基百科摘要。

交流目标

生成具体领域的描述性摘要,其中讨论了特定主题,通常按特定顺序。

来自不同来源

来源详情

WikiSum(Liu等人,2018年)

语言数据

如何获取语言数据?

其他

覆盖的主题

数据集和任务侧重于三个领域实体的摘要:公司、电影和动物。

数据验证

未验证

数据预处理

摘要句子与主题标签关联。每个领域都有一个主题模型。

数据是否经过过滤?

未过滤

结构化注释

是否有其他注释?

自动创建的

注释服务?

注释值

每个摘要句子都附有主题标签。每个领域都有一个主题模型。这被用于指导分层解码器。

是否有质量控制?

数据策展者验证

质量控制详情

手动检查分配给句子的一部分主题的样本。主题数量是基于摘要模型的性能选择的。

同意

是否有同意政策?

使用数据的理由

数据集基于维基百科和引用和从Web爬取的文档。

个人识别信息(PII)

包含PII吗?

不太可能

有PII识别吗?

无识别

维护

是否有维护计划?

更广阔的社会背景

对数据集社会影响的先前工作

基于数据的模型的使用

对弱势群体的影响

是否满足弱势群体的需求?

偏见讨论

是否有记录的社会偏见?

分析工作的链接和摘要

这个数据集基于维基百科,因此其他基于维基百科的数据集的偏见分析可能也适用于WikiCatSum。例如,请参阅这里关于ToTTo数据集的分析工作[1]。

[1] Automatic Construction of Evaluation Suites for Natural Language Generation Datasets https://openreview.net/forum?id=CSi1eu_2q96

使用数据的注意事项

PII风险和责任

许可证

数据集的版权限制

公有领域

语言数据的版权限制

公有领域

已知的技术限制