数据集:

GEM/xwikis

任务:

摘要生成

语言:

计算机处理:

unknown

大小:

size_categories:unknown

语言创建人:

unknown

批注创建人:

found

源数据集:

original

预印本库:

arxiv:2202.09583

许可:

cc-by-sa-4.0

数据集介绍文件清单

英文

GEM/xwikis 数据集卡片

链接到主要数据卡片

您可以在这里找到主要的数据卡片： GEM Website 。

数据集概述

XWikis Corpus 提供了具有不同语言对和方向的数据集，用于跨语言和多语言的抽象文档摘要。

您可以通过以下方式加载数据集：

import datasets
data = datasets.load_dataset('GEM/xwikis')

数据加载器可以在此处找到： here 。

网站

Github

论文

https://arxiv.org/abs/2202.09583

作者

Laura Perez-Beltrachini (爱丁堡大学)

数据集概览

如何获取数据及其文档

网页

Github

论文

https://arxiv.org/abs/2202.09583

BibTex

@InProceedings{clads-emnlp,
  author =      "Laura Perez-Beltrachini and Mirella Lapata",
  title =       "Models and Datasets for Cross-Lingual Summarisation",
  booktitle =   "Proceedings of The 2021 Conference on Empirical Methods in Natural Language Processing ",
  year =        "2021",
  address =     "Punta Cana, Dominican Republic",
}

联系人姓名

Laura Perez-Beltrachini

联系人电子邮件

lperez@ed.ac.uk

有排行榜吗？

否

语言和预期用途

多语言？

是

支持的语言

德语，英语，法语，捷克语，中文

许可证

cc-by-sa-4.0：知识共享署名-相同方式共享4.0国际许可证

预期用途

跨语言和多语言单个长输入文档的抽象摘要。

主要任务

摘要

传达目标

实体描述性摘要，即生成传达与给定实体相关的文档的最显著事实的摘要。

权限

组织类型

学术

数据集创建者

Laura Perez-Beltrachini (爱丁堡大学)

谁向GEM添加了数据集？

Laura Perez-Beltrachini (爱丁堡大学)和Ronald Cardenas (爱丁堡大学)

数据集结构

数据拆分

对于每个语言对和方向，都存在训练/验证/测试拆分。测试拆分是四种语言标题（cs、fr、en、de）的交集中的7k个样本。训练/验证是随机拆分的。

GEM 中的数据集

放入GEM的理由

类似的数据集

否

GEM特定的编辑

修改为GEM？

否

附加拆分？

否

入门任务

以前的结果

评估模型能力

实体显着信息的识别
翻译
多语言
跨语言转移，零-shot，少-shot

指标

ROUGE

可用的以前结果？

是

其他评估方法

ROUGE-1/2/L

数据集编辑

原始编辑

来自不同来源吗？

否

语言数据

如何获取语言数据？

发现

在哪里找到？

单个网站

数据验证

其他

是否筛选数据？

没有筛选

结构化标注

额外的注释？

发现

注释服务？

否

注释值

输入文档具有节结构信息。

是否有质量控制？

由另一名评定者验证

质量控制细节

双语注释者评估了源文档与目标摘要的内容重叠。

同意

有同意政策吗？

否

包含个人身份信息（PII）

包含PII吗？

没有PII

维护

是否有维护计划？

否

更广泛的社会背景

有关数据集社会影响的先前工作

是否使用基于数据的模型

否

针对弱势社区的影响

是否满足弱势社区的需求？

否

偏见讨论

有记录的社会偏见吗？

否

使用数据时的注意事项

PII风险和责任

版权许可

数据集上的版权限制

公共领域

语言数据上的版权限制

公共领域

已知的技术限制

作者:

GEM

数据集大小:

31.34 GB