数据集:

GEM/xwikis

计算机处理:

unknown

语言创建人:

unknown

批注创建人:

found

源数据集:

original

预印本库:

arxiv:2202.09583
英文

GEM/xwikis 数据集卡片

链接到主要数据卡片

您可以在这里找到主要的数据卡片: GEM Website

数据集概述

XWikis Corpus 提供了具有不同语言对和方向的数据集,用于跨语言和多语言的抽象文档摘要。

您可以通过以下方式加载数据集:

import datasets
data = datasets.load_dataset('GEM/xwikis')

数据加载器可以在此处找到: here

网站

Github

论文

https://arxiv.org/abs/2202.09583

作者

Laura Perez-Beltrachini (爱丁堡大学)

数据集概览

如何获取数据及其文档

网页

Github

论文

https://arxiv.org/abs/2202.09583

BibTex
@InProceedings{clads-emnlp,
  author =      "Laura Perez-Beltrachini and Mirella Lapata",
  title =       "Models and Datasets for Cross-Lingual Summarisation",
  booktitle =   "Proceedings of The 2021 Conference on Empirical Methods in Natural Language Processing ",
  year =        "2021",
  address =     "Punta Cana, Dominican Republic",
}
联系人姓名

Laura Perez-Beltrachini

联系人电子邮件

lperez@ed.ac.uk

有排行榜吗?

语言和预期用途

多语言?

支持的语言

德语,英语,法语,捷克语,中文

许可证

cc-by-sa-4.0:知识共享署名-相同方式共享4.0国际许可证

预期用途

跨语言和多语言单个长输入文档的抽象摘要。

主要任务

摘要

传达目标

实体描述性摘要,即生成传达与给定实体相关的文档的最显著事实的摘要。

权限

组织类型

学术

数据集创建者

Laura Perez-Beltrachini (爱丁堡大学)

谁向GEM添加了数据集?

Laura Perez-Beltrachini (爱丁堡大学)和Ronald Cardenas (爱丁堡大学)

数据集结构

数据拆分

对于每个语言对和方向,都存在训练/验证/测试拆分。测试拆分是四种语言标题(cs、fr、en、de)的交集中的7k个样本。训练/验证是随机拆分的。

GEM 中的数据集

放入GEM的理由

类似的数据集

GEM特定的编辑

修改为GEM?

附加拆分?

入门任务

以前的结果

以前的结果

评估模型能力
  • 实体显着信息的识别
  • 翻译
  • 多语言
  • 跨语言转移,零-shot,少-shot
指标

ROUGE

可用的以前结果?

其他评估方法

ROUGE-1/2/L

数据集编辑

原始编辑

来自不同来源吗?

语言数据

如何获取语言数据?

发现

在哪里找到?

单个网站

数据验证

其他

是否筛选数据?

没有筛选

结构化标注

额外的注释?

发现

注释服务?

注释值

输入文档具有节结构信息。

是否有质量控制?

由另一名评定者验证

质量控制细节

双语注释者评估了源文档与目标摘要的内容重叠。

同意

有同意政策吗?

包含个人身份信息(PII)

包含PII吗?

没有PII

维护

是否有维护计划?

更广泛的社会背景

有关数据集社会影响的先前工作

是否使用基于数据的模型

针对弱势社区的影响

是否满足弱势社区的需求?

偏见讨论

有记录的社会偏见吗?

使用数据时的注意事项

PII风险和责任

版权许可

数据集上的版权限制

公共领域

语言数据上的版权限制

公共领域

已知的技术限制