数据集:

projecte-aina/casum

语言:

ca

计算机处理:

monolingual

语言创建人:

expert-generated

批注创建人:

machine-generated

预印本库:

arxiv:2202.06871
英文

CaSum 数据集卡片

数据集概述

CaSum 是一个摘要数据集。该数据集从关于加泰罗尼亚新闻机构( Agència Catalana de Notícies; ACN )的一份新闻资料中提取而来。该资料集包含了217,735个实例,每个实例由标题和正文组成。

支持的任务和排行榜

该数据集可用于训练生成型摘要模型。通常使用Rouge分数高作为该任务的成功衡量标准。目前 mbart-base-ca-casum 模型的得分为41.39。

语言

该数据集使用的语言是加泰罗尼亚语(ca-CA)。

数据集结构

数据实例

{
  'summary': 'Mapfre preveu ingressar 31.000 milions d’euros al tancament de 2018',
  'text': 'L’asseguradora llançarà la seva filial Verti al mercat dels EUA a partir de 2017 ACN Madrid.-Mapfre preveu assolir uns ingressos de 31.000 milions d'euros al tancament de 2018 i destinarà a retribuir els seus accionistes com a mínim el 50% dels beneficis del grup durant el període 2016-2018, amb una rendibilitat mitjana a l’entorn del 5%, segons ha anunciat la companyia asseguradora durant la celebració aquest divendres de la seva junta general d’accionistes. La firma asseguradora també ha avançat que llançarà la seva filial d’automoció i llar al mercat dels EUA a partir de 2017. Mapfre ha recordat durant la junta que va pagar més de 540 milions d'euros en impostos el 2015, amb una taxa impositiva efectiva del 30,4 per cent. La companyia també ha posat en marxa el Pla de Sostenibilitat 2016-2018 i el Pla de Transparència Activa, “que han de contribuir a afermar la visió de Mapfre com a asseguradora global de confiança”, segons ha informat en un comunicat.'
}

数据字段

  • 摘要(str):新闻片段的摘要
  • 文本(str):新闻片段的文本

数据拆分

我们将数据集拆分为训练集、验证集和测试集。

  • 训练集:197,735个示例
  • 验证集:10,000个示例
  • 测试集:10,000个示例

数据集创建

策划理由

我们创建这个资料集是为了促进加泰罗尼亚语的语言模型开发,因为加泰罗尼亚语是一种资源稀缺的语言。目前加泰罗尼亚语的摘要资源非常有限。

Source Data

数据采集和规范化

我们从加泰罗尼亚新闻机构( Agència Catalana de Notícies; ACN )的网站上获取了每个新闻片段的标题和对应的正文,并应用了以下清理过程:对文本进行去重、删除具有空属性的文档,并删除了一些样板句子。

资源语言的生产者是谁?

加泰罗尼亚新闻机构( Agència Catalana de Notícies; ACN )。

注释

该数据集未进行注释。

注释过程

[N/A]

注释者是谁?

[N/A]

个人和敏感信息

由于所有数据均来自公共网站,因此不需要进行匿名化处理。

使用数据的注意事项

数据的社会影响

我们希望这个资料集有助于加泰罗尼亚语摘要模型的发展,因为加泰罗尼亚语是一种资源稀缺的语言。

偏见讨论

我们知道,由于数据来源于不可靠的网页,数据集中可能存在一些偏见。尽管如此,我们没有采取任何步骤去降低它们的影响。

其他已知限制

[N/A]

其他信息

数据集策划者

巴塞罗那超级计算中心的文本挖掘部门(bsc-temu@bsc.es)

本工作由MT4All CEF项目和 Departament de la Vicepresidència i de Polítiques Digitals i Territori de la Generalitat de Catalunya 项目在 Projecte AINA 框架下资助。

许可信息

Creative Commons Attribution 4.0 International

BibTeX引用

如果您在您的工作中使用了这些资源(数据集或模型),请引用我们的最新预印版:

@misc{degibert2022sequencetosequence,
      title={Sequence-to-Sequence Resources for Catalan}, 
      author={Ona de Gibert and Ksenia Kharitonova and Blanca Calvo Figueras and Jordi Armengol-Estapé and Maite Melero},
      year={2022},
      eprint={2202.06871},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

贡献

[N/A]