数据集:
projecte-aina/viquiquad
任务:
问答子任务:
extractive-qa语言:
ca计算机处理:
monolingual大小:
10K<n<100K语言创建人:
found批注创建人:
expert-generated源数据集:
original许可:
cc-by-sa-4.0ViquiQuAD,一份来自维基百科的加泰罗尼亚语抽取问答数据集。
此数据集包含从597篇高质量原创(非翻译)的加泰罗尼亚语维基百科文章中提取的3111个上下文片段,每个片段配有1至5个问题及其答案。
Viquipedia文章使用了 CC-by-sa 许可证。
此数据集可用于微调和评估抽取问答和语言模型。
抽取问答,语言模型
数据集使用的语言为加泰罗尼亚语(ca-CA)。
{ 'id': 'P_66_C_391_Q1', 'title': 'Xavier Miserachs i Ribalta', 'context': "En aquesta època es va consolidar el concepte modern del reportatge fotogràfic, diferenciat del fotoperiodisme[n. 2] i de la fotografia documental,[n. 3] pel que fa a l'abast i el concepte. El reportatge fotogràfic implica més la idea de relat: un treball que vol més dedicació de temps, un esforç d'interpretació d'una situació i que culmina en un conjunt d'imatges. Això implica, d'una banda, la reivindicació del fotògraf per opinar, fet que li atorgarà estatus d'autor; l'autor proposa, doncs, una interpretació pròpia de la realitat. D'altra banda, el consens que s'estableix entre la majoria de fotògrafs és que el vehicle natural de la imatge fotogràfica és la pàgina impresa. Això suposà que revistes com Life, Paris-Match, Stern o Época assolissin la màxima esplendor en aquest període.", 'question': 'De què es diferenciava el reportatge fotogràfic?', 'answers': [{ 'text': 'del fotoperiodisme[n. 2] i de la fotografia documental', 'answer_start': 92 }] }
按照SQuAD v1数据集的方式进行标注。
我们希望该数据集能够为加泰罗尼亚语这种低资源语言的语言模型的开发做出贡献。
源数据是从 Catalan wikipedia 网站中爬取的文章。
从一组高质量、非翻译的加泰罗尼亚语维基百科文章中,随机选择了597篇,从中提取了3111个包含5-8个句子的上下文片段。我们委托创建了每个上下文的1到5个问题,遵循了SQuAD 1.0( Rajpurkar, Pranav et al. (2016) )的指南。总共创建了15153个问题与包含答案的提取片段的配对。
为了与其他语言的类似数据集兼容,我们尽可能地遵循了现有的策划指南。
谁是源语言的生产者?与加泰罗尼亚语维基百科合作的志愿者。
我们委托每个上下文创建了1到5个问题,遵循了SQuAD 1.0( Rajpurkar, Pranav et al. (2016) )的指南。
谁是注释者?注释工作委托给了一家专门的公司,他们聘请了一支以该语言为母语的团队进行了注释。
不包含个人或敏感信息。
我们希望该数据集能够为加泰罗尼亚语这种低资源语言的语言模型的开发做出贡献。
[N/A]
[N/A]
巴塞罗那超级计算中心(Text Mining Unit)(bsc-temu@bsc.es)
该工作受到 Departament de la Vicepresidència i de Polítiques Digitals i Territori de la Generalitat de Catalunya 的资助,并在 Projecte AINA 的框架下完成。
该作品是根据 Attribution-ShareAlike 4.0 International License 许可证授权的。
@inproceedings{armengol-estape-etal-2021-multilingual, title = "Are Multilingual Models the Best Choice for Moderately Under-resourced Languages? {A} Comprehensive Assessment for {C}atalan", author = "Armengol-Estap{\'e}, Jordi and Carrino, Casimiro Pio and Rodriguez-Penagos, Carlos and de Gibert Bonet, Ona and Armentano-Oller, Carme and Gonzalez-Agirre, Aitor and Melero, Maite and Villegas, Marta", booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021", month = aug, year = "2021", address = "Online", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2021.findings-acl.437", doi = "10.18653/v1/2021.findings-acl.437", pages = "4933--4946", }
[N/A]