数据集:

orange_sum

语言:

fr

计算机处理:

monolingual

大小:

10K<n<100K

语言创建人:

found

批注创建人:

found

源数据集:

original

预印本库:

arxiv:2010.12321
英文

OrangeSum数据集的数据卡

数据集概述

OrangeSum数据集是受到XSum数据集的启发,通过爬取"Orange Actu"网站 https://actu.orange.fr/ 来创建的。Orange S.A.是一家法国大型跨国电信公司,拥有2.66亿全球客户。爬取的页面涵盖了从2011年2月到2020年9月近10年的时间。它们属于五个主要类别:法国、世界、政治、汽车和社会。社会类别本身又分为8个子类别:健康、环境、人物、文化、媒体、高科技、不寻常(法语中的"insolite")和杂项。

每篇文章都有一个单句标题和一个非常简短的摘要,都是由作者专业撰写的。从每个页面中提取这两个字段,从而创建了两个摘要任务:OrangeSum标题和OrangeSum摘要。

支持的任务和排行榜

任务:OrangeSum标题和OrangeSum摘要。

截至目前,该数据集没有排行榜。

语言

数据集中的文本为法语。

数据集结构

数据实例

每个数据实例由一篇新闻文章和一个摘要组成。摘要可以是简短的摘要或标题,具体取决于配置。

示例:

正文:法国八个省份接下来几个小时将会下雨:除了周四早上处于橙色警戒状态的三个布列塔尼省份外,中央南部的五个省份也被置于橙色的雨水和洪水警戒之下。这些省份包括阿韦龙省、坎塔尔省、加尔省、洛泽尔省和上洛亚尔省。在这次事件的整个过程中,预计布列塔尼地区的降雨量在24小时内为40至60毫米,并可能局部达到70毫米。在接下来的夜晚,对朗格多克和中央南部地区的影响将在阿韦龙省带来强降雨。预计在24小时内,这些地区将出现70至100毫米的累积降雨量,而塞文山脉地区预计将出现150至200毫米的降雨,很少情况下可能达到250毫米,在加尔省西部和洛泽尔省东部可能偶尔出现。这一降雨过程将在晚上随着雷雨向更北的地区转移而逐渐减弱。这些降水将伴随着雷雨,可能出现冰雹、阵风和强烈的电活动。

摘要:除了三个布列塔尼省份,法国中部还有五个省份被置于橙色的雨水和洪水警戒中。

标题:洪水:8个省份处于橙色警戒中。

数据字段

text:要进行摘要的文档。

summary:源文档的摘要。

数据拆分

该数据集分为训练集、验证集和测试集,两种配置都是如此。

数据集创建

策划理由

这里的目标是创建一个法语版本的最近引入的 XSum 数据集的法语等效物。与历史摘要数据集CNN、DailyMail和NY Times等偏向于提取策略不同,XSum和OrangeSum要求模型具有很高的抽象能力才能表现良好。OrangeSum中的摘要不是吸引人的标题,而是捕捉文章的主旨。

源数据

初始数据收集和规范化

每篇文章都有一个单句标题和一个非常简短的摘要。从每篇新闻文章页面中提取这两个字段,就创建了两个摘要任务:OrangeSum标题和OrangeSum摘要。作为后处理步骤,删除了所有空文章以及摘要长度小于5个词的文章。对于OrangeSum摘要,根据摘要中新颖单个词比例的百分比删除了占前10%的文章,因为观察到这样的摘要往往是引言而不是真实摘要。此阈值相当于57%的新颖单个词。对于OrangeSum标题和OrangeSum摘要,留出了1500对用于测试和1500对用于验证,其余所有对用于训练。

谁是源语言的生产者?

文章的作者。

注释

注释过程

摘要是由文章的作者专业撰写的。

谁是注释者?

文章的作者。

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集策划者

数据集最初由Antoine J.-P. Tixier创建。

许可信息

[需要更多信息]

引用信息

@article{eddine2020barthez,
  title={BARThez: a Skilled Pretrained French Sequence-to-Sequence Model},
  author={Eddine, Moussa Kamal and Tixier, Antoine J-P and Vazirgiannis, Michalis},
  journal={arXiv preprint arXiv:2010.12321},
  year={2020}
}

贡献

感谢 @moussaKam 添加了这个数据集。