数据集:

LeoCordoba/CC-NEWS-ES-titles

任务:

摘要生成

文本生成

语言:

计算机处理:

monolingual

大小:

100K<n<1M

语言创建人:

found

批注创建人:

no-annotation

源数据集:

cc-news

其他:

conditional-text-generation

许可:

mit

数据集介绍文件清单

英文

CC-NEWS-ES-titles 数据集卡片

数据集概述

CC-NEWS-ES-titles 是一个用于新闻标题生成的西班牙语数据集。其中的文本和标题来自于2019年和2020年的 CC-NEWS 数据（属于 Common Crawl 的一部分）。

它包含 402,310 对新闻标题和正文，分为:

训练集：370,125
评估集：16,092
测试集：16,092

支持的任务和排行榜

text-classification、sentiment-classification ：该数据集可用于训练用于新闻标题生成的模型，可视为抽象摘要的子任务。

语言

该文本为西班牙语。西班牙语的 BCP-47 代码为 es。

数据集结构

数据实例

每个数据实例包含以下特征: text 和 output_text 。

text 是新闻的正文。
output_text 是新闻的标题。

CC-NEWS-ES-titles 训练集中的一个示例如下:

{'text': 'Hoy en el Boletín Oficial también se publicó la disposición para universidades, institutos universitarios y de educación superior de todas las jurisdicciones, a las que recomienda que "adecúen las condiciones en que se desarrolla la actividad académica presencial en el marco de la emergencia conforme con las recomendaciones del Ministerio de Salud", según lo publicado por la agencia	',
 'output_text': 'Coronavirus: "Seguimos educando", la plataforma online para que los chicos estudien en cuarentena'}

数据字段

'text'：包含新闻正文的字符串。
'output_text'：包含新闻标题的字符串。

数据拆分

CC-NEWS-ES-titles 数据集有 3 个拆分: 训练集、验证集和测试集。这些拆分包含不相交的新闻集合。

Dataset Split	Number of Instances in Split
Train	370.125
Eval	16.092
Test	16.092

数据集创建

创建理由

[N/A]

源数据

Initial Data Collection and Normalization

TODO

Who are the source language producers?

Common Crawl: https://commoncrawl.org/

注释

该数据集不包含任何额外的注释。

Annotation process

[N/A]

Who are the annotators?

[N/A]

个人和敏感信息

[N/A]

使用数据的注意事项

数据的社会影响

抽象摘要是一个复杂的任务，而西班牙语是自然语言处理领域欠代表性的语言。因此，添加一个西班牙语资源可以帮助其他人改进他们的研究和教育活动。

偏见讨论

[N/A]

其他已知限制

[N/A]

其他信息

数据集维护者

该数据集由 Leonardo Ignacio Córdoba 维护，并在 María Gaska 的帮助下构建。

许可信息

[N/A]

引用信息

TODO

贡献

[N/A]

作者:

LeoCordoba

数据集大小:

624.35 MB