数据集:
projecte-aina/vilasum
任务:
摘要生成语言:
ca计算机处理:
monolingual语言创建人:
expert-generated批注创建人:
machine-generated预印本库:
arxiv:2202.06871许可:
cc-by-nc-4.0VilaSum是用于评估的摘要数据集。它是从Catalan新闻门户 VilaWeb 抓取的新闻语料库中提取的。该语料库包含13,843个实例,由标题和正文组成。
该数据集可用于训练抽象摘要模型。通常通过达到高Rouge分数来衡量此任务的成功。 mbart-base-ca-casum 模型目前达到了35.04的分数。
该数据集使用的语言是加泰罗尼亚语( ca-CA )。
{ 'summary': 'Un vídeo corrobora les agressions a dues animalistes en un correbou del Mas de Barberans', 'text': 'Noves imatges, a les quals ha tingut accés l'ACN, certifiquen les agressions i la destrucció del material d'enregistrament que han denunciat dues activistes d'AnimaNaturalis en la celebració d'un acte de bous a la plaça al Mas de Barberans (Montsià). En el vídeo es veu com unes quantes persones s'abalancen sobre les noies que reben estirades i cops mentre els intenten prendre les càmeres. Membres de la comissió taurina intervenen per aturar els presumptes agressors però es pot escoltar com part del públic victoreja la situació. Els Mossos d'Esquadra presentaran aquest dilluns al migdia l'atestat dels fets al Jutjat d'Amposta. Dissabte ja es van detenir quatre persones que van quedar en llibertat a l'espera de ser cridats pel jutge. Es tracta de tres homes i una dona de Sant Carles de la Ràpita, tots ells membres de la mateixa família.' }
由于数据集的规模较小,我们仅将其用作评估的测试集。
我们创建了这个语料库,以促进加泰罗尼亚语这种资源稀缺的语言的语言模型的发展。目前加泰罗尼亚语的摘要资源非常有限。
我们获取了每个新闻片段的标题及其对应的正文,然后对其应用了以下清理流程:删除重复文档,删除属性为空的文档,并删除一些样板句子。
源语言制片人是哪些人?新闻门户 VilaWeb 。
该数据集没有进行注释。
注释过程[N/A]
注释者是谁?[N/A]
由于所有数据都来自公共网站,因此未执行任何匿名化处理过程。
我们希望这个语料库对加泰罗尼亚语这种资源稀缺的语言的摘要模型的发展有所贡献。
我们知道,由于数据来自不可靠的网页,数据集中可能存在一些偏见。尽管如此,我们没有采取任何措施来减少它们的影响。
[N/A]
巴塞罗那超级计算中心( BSC )的文本挖掘单元( TeMU )( bsc-temu@bsc.es )
这项工作由MT4All CEF项目和 Departament de la Vicepresidència i de Polítiques Digitals i Territori de la Generalitat de Catalunya 在 Projecte AINA 框架内资助。
Creative Commons Attribution 4.0 International 。
如果您在工作中使用了这些资源(数据集或模型),请引用我们的最新预印本:
@misc{degibert2022sequencetosequence, title={Sequence-to-Sequence Resources for Catalan}, author={Ona de Gibert and Ksenia Kharitonova and Blanca Calvo Figueras and Jordi Armengol-Estapé and Maite Melero}, year={2022}, eprint={2202.06871}, archivePrefix={arXiv}, primaryClass={cs.CL} }
[N/A]