数据集:
LeoCordoba/CC-NEWS-ES-titles
CC-NEWS-ES-titles 是一个用于新闻标题生成的西班牙语数据集。其中的文本和标题来自于2019年和2020年的 CC-NEWS 数据(属于 Common Crawl 的一部分)。
它包含 402,310 对新闻标题和正文,分为:
训练集:370,125
评估集:16,092
测试集:16,092
该文本为西班牙语。西班牙语的 BCP-47 代码为 es。
每个数据实例包含以下特征: text 和 output_text 。
CC-NEWS-ES-titles 训练集中的一个示例如下:
{'text': 'Hoy en el Boletín Oficial también se publicó la disposición para universidades, institutos universitarios y de educación superior de todas las jurisdicciones, a las que recomienda que "adecúen las condiciones en que se desarrolla la actividad académica presencial en el marco de la emergencia conforme con las recomendaciones del Ministerio de Salud", según lo publicado por la agencia ', 'output_text': 'Coronavirus: "Seguimos educando", la plataforma online para que los chicos estudien en cuarentena'}
CC-NEWS-ES-titles 数据集有 3 个拆分: 训练集、验证集和测试集。这些拆分包含不相交的新闻集合。
Dataset Split | Number of Instances in Split |
---|---|
Train | 370.125 |
Eval | 16.092 |
Test | 16.092 |
[N/A]
TODO
Who are the source language producers?Common Crawl: https://commoncrawl.org/
该数据集不包含任何额外的注释。
Annotation process[N/A]
Who are the annotators?[N/A]
[N/A]
抽象摘要是一个复杂的任务,而西班牙语是自然语言处理领域欠代表性的语言。因此,添加一个西班牙语资源可以帮助其他人改进他们的研究和教育活动。
[N/A]
[N/A]
该数据集由 Leonardo Ignacio Córdoba 维护,并在 María Gaska 的帮助下构建。
[N/A]
TODO
[N/A]