数据集:
projecte-aina/vilaquad
任务:
问答子任务:
extractive-qa语言:
ca计算机处理:
monolingual大小:
1K<n<10K语言创建人:
found批注创建人:
expert-generated源数据集:
original许可:
cc-by-sa-4.0VilaQuAD 是一个用于加泰罗尼亚语的抽取型问答数据集,从 VilaWeb 条新闻文本中提取而来。
该数据集包含2095篇加泰罗尼亚语新闻文章,每篇文章附带1至5个问题。
VilaQuAD 文章是从每日新闻 VilaWeb 中提取出来并在 CC-by-nc-sa-nd 许可下使用的。
此数据集可用于构建抽取型问答和语言模型。
抽取型问答,语言模型。
数据集使用的语言为加泰罗尼亚语 (ca-CA)。
{ 'id': 'P_556_C_556_Q1', 'title': "El Macba posa en qüestió l'eufòria amnèsica dels anys vuitanta a l'estat espanyol", 'context': "El Macba ha obert una nova exposició, 'Gelatina dura. Històries escamotejades dels 80', dedicada a revisar el discurs hegemònic que es va instaurar en aquella dècada a l'estat espanyol, concretament des del començament de la transició, el 1977, fins a la fita de Barcelona 92. És una mirada en clau espanyola, però també centralista, perquè més enllà dels esdeveniments ocorreguts a Catalunya i els artistes que els van combatre, pràcticament només s'hi mostren fets polítics i culturals generats des de Madrid. No es parla del País Basc, per exemple. Però, dit això, l'exposició revisa aquesta dècada de la història recent tot qüestionant un triomfalisme homogeneïtzador, que ja se sap que va arrasar una gran quantitat de sectors crítics i radicals de l'àmbit social, polític i cultural. Com diu la comissària, Teresa Grandas, de l'equip del Macba: 'El relat oficial dels anys vuitanta a l'estat espanyol va prioritzar la necessitat per damunt de la raó i va consolidar una mirada que privilegiava el futur abans que l'anàlisi del passat recent, obviant qualsevol consideració crítica respecte de la filiació amb el poder franquista.", 'question': 'Com es diu la nova exposició que ha obert el Macba?', 'answers': [ { 'text': "'Gelatina dura. Històries escamotejades dels 80'", 'answer_start': 38 } ] }
遵循 SQuAD v1 数据集的 Rajpurkar, Pranav et al., (2016) 。
我们创建该数据集是为了促进加泰罗尼亚语(一种资源稀缺的语言)的语言模型的发展。
源数据是从加泰罗尼亚报纸网站 Vilaweb 的档案中爬取的文章。
从每日新闻的在线版 VilaWeb 中随机选择了2095篇文章。这些标题还用于创建文本蕴涵数据集。对于抽取型问答数据集,为每个新闻上下文委托创建了1至5个问题,根据 SQuAD 1.0( Rajpurkar, Pranav et al. (2016) )的指南进行调整。总共创建了6282对问题和包含答案的抽取出的片段。
为了与其他语言中类似数据集兼容,我们尽可能地遵循现有的策展指南。我们还创建了 another QA dataset with wikipedia 以确保在主题和风格上的多样性。
谁是源语言的生成者?来自加泰罗尼亚报纸 VilaWeb 的专业记者。
我们为每个上下文委托创建了1至5个问题,根据 SQuAD 1.0( Rajpurkar, Pranav et al. (2016) )的指南进行调整。
谁是标注者?标注工作委托给了一家专门公司,他们聘请了一支以母语为加泰罗尼亚语的团队。
不包含个人或敏感信息。
我们希望这个数据集能够促进加泰罗尼亚语(一种资源稀缺的语言)语言模型的发展。
[无]
[无]
巴塞罗那超级计算中心(Barcelona Supercomputing Center)的文本挖掘部门(bsc-temu@bsc.es)
该工作由框架内的 Departament de la Vicepresidència i de Polítiques Digitals i Territori de la Generalitat de Catalunya 资助。
该工作根据 Attribution-ShareAlike 4.0 International License 进行许可。
@inproceedings{armengol-estape-etal-2021-multilingual, title = "Are Multilingual Models the Best Choice for Moderately Under-resourced Languages? {A} Comprehensive Assessment for {C}atalan", author = "Armengol-Estap{\'e}, Jordi and Carrino, Casimiro Pio and Rodriguez-Penagos, Carlos and de Gibert Bonet, Ona and Armentano-Oller, Carme and Gonzalez-Agirre, Aitor and Melero, Maite and Villegas, Marta", booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021", month = aug, year = "2021", address = "Online", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2021.findings-acl.437", doi = "10.18653/v1/2021.findings-acl.437", pages = "4933--4946", }
[无]