数据集:
GEM/xwikis
任务:
摘要生成计算机处理:
unknown语言创建人:
unknown批注创建人:
found源数据集:
original预印本库:
arxiv:2202.09583许可:
cc-by-sa-4.0您可以在这里找到主要的数据卡片: GEM Website 。
XWikis Corpus 提供了具有不同语言对和方向的数据集,用于跨语言和多语言的抽象文档摘要。
您可以通过以下方式加载数据集:
import datasets data = datasets.load_dataset('GEM/xwikis')
数据加载器可以在此处找到: here 。
网站 论文https://arxiv.org/abs/2202.09583
作者Laura Perez-Beltrachini (爱丁堡大学)
https://arxiv.org/abs/2202.09583
BibTex@InProceedings{clads-emnlp, author = "Laura Perez-Beltrachini and Mirella Lapata", title = "Models and Datasets for Cross-Lingual Summarisation", booktitle = "Proceedings of The 2021 Conference on Empirical Methods in Natural Language Processing ", year = "2021", address = "Punta Cana, Dominican Republic", }联系人姓名
Laura Perez-Beltrachini
联系人电子邮件lperez@ed.ac.uk
有排行榜吗?否
是
支持的语言德语,英语,法语,捷克语,中文
许可证cc-by-sa-4.0:知识共享署名-相同方式共享4.0国际许可证
预期用途跨语言和多语言单个长输入文档的抽象摘要。
主要任务摘要
传达目标实体描述性摘要,即生成传达与给定实体相关的文档的最显著事实的摘要。
学术
数据集创建者Laura Perez-Beltrachini (爱丁堡大学)
谁向GEM添加了数据集?Laura Perez-Beltrachini (爱丁堡大学)和Ronald Cardenas (爱丁堡大学)
对于每个语言对和方向,都存在训练/验证/测试拆分。测试拆分是四种语言标题(cs、fr、en、de)的交集中的7k个样本。训练/验证是随机拆分的。
否
否
附加拆分?否
ROUGE
可用的以前结果?是
其他评估方法ROUGE-1/2/L
否
发现
在哪里找到?单个网站
数据验证其他
是否筛选数据?没有筛选
发现
注释服务?否
注释值输入文档具有节结构信息。
是否有质量控制?由另一名评定者验证
质量控制细节双语注释者评估了源文档与目标摘要的内容重叠。
否
没有PII
否
否
否
否
公共领域
语言数据上的版权限制公共领域