数据集:

projecte-aina/vilasum

语言:

ca

计算机处理:

monolingual

语言创建人:

expert-generated

批注创建人:

machine-generated

预印本库:

arxiv:2202.06871
英文

VilaSum数据集卡片

数据集摘要

VilaSum是用于评估的摘要数据集。它是从Catalan新闻门户 VilaWeb 抓取的新闻语料库中提取的。该语料库包含13,843个实例,由标题和正文组成。

支持的任务和排行榜

该数据集可用于训练抽象摘要模型。通常通过达到高Rouge分数来衡量此任务的成功。 mbart-base-ca-casum 模型目前达到了35.04的分数。

语言

该数据集使用的语言是加泰罗尼亚语( ca-CA )。

数据集结构

数据示例

{
  'summary': 'Un vídeo corrobora les agressions a dues animalistes en un correbou del Mas de Barberans',
  'text': 'Noves imatges, a les quals ha tingut accés l'ACN, certifiquen les agressions i la destrucció del material d'enregistrament que han denunciat dues activistes d'AnimaNaturalis en la celebració d'un acte de bous a la plaça al Mas de Barberans (Montsià). En el vídeo es veu com unes quantes persones s'abalancen sobre les noies que reben estirades i cops mentre els intenten prendre les càmeres. Membres de la comissió taurina intervenen per aturar els presumptes agressors però es pot escoltar com part del públic victoreja la situació. Els Mossos d'Esquadra presentaran aquest dilluns al migdia l'atestat dels fets al Jutjat d'Amposta. Dissabte ja es van detenir quatre persones que van quedar en llibertat a l'espera de ser cridats pel jutge. Es tracta de tres homes i una dona de Sant Carles de la Ràpita, tots ells membres de la mateixa família.'
}

数据字段

  • 摘要(str):新闻片段的摘要
  • 文本(str):新闻片段的正文

数据拆分

由于数据集的规模较小,我们仅将其用作评估的测试集。

  • 测试集:13,843个示例

数据集创建

策划理由

我们创建了这个语料库,以促进加泰罗尼亚语这种资源稀缺的语言的语言模型的发展。目前加泰罗尼亚语的摘要资源非常有限。

源数据

初始数据收集和规范化

我们获取了每个新闻片段的标题及其对应的正文,然后对其应用了以下清理流程:删除重复文档,删除属性为空的文档,并删除一些样板句子。

源语言制片人是哪些人?

新闻门户 VilaWeb

注释

该数据集没有进行注释。

注释过程

[N/A]

注释者是谁?

[N/A]

个人和敏感信息

由于所有数据都来自公共网站,因此未执行任何匿名化处理过程。

使用数据的注意事项

数据的社会影响

我们希望这个语料库对加泰罗尼亚语这种资源稀缺的语言的摘要模型的发展有所贡献。

偏见讨论

我们知道,由于数据来自不可靠的网页,数据集中可能存在一些偏见。尽管如此,我们没有采取任何措施来减少它们的影响。

其他已知限制

[N/A]

其他信息

数据集策划者

巴塞罗那超级计算中心( BSC )的文本挖掘单元( TeMU )( bsc-temu@bsc.es )

这项工作由MT4All CEF项目和 Departament de la Vicepresidència i de Polítiques Digitals i Territori de la Generalitat de Catalunya Projecte AINA 框架内资助。

许可信息

Creative Commons Attribution 4.0 International

引用信息

如果您在工作中使用了这些资源(数据集或模型),请引用我们的最新预印本:

@misc{degibert2022sequencetosequence,
      title={Sequence-to-Sequence Resources for Catalan}, 
      author={Ona de Gibert and Ksenia Kharitonova and Blanca Calvo Figueras and Jordi Armengol-Estapé and Maite Melero},
      year={2022},
      eprint={2202.06871},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

贡献

[N/A]