数据集:
projecte-aina/xquad-ca
任务:
问答子任务:
extractive-qa语言:
ca计算机处理:
monolingual语言创建人:
found批注创建人:
expert-generated许可:
cc-by-sa-4.0XQuAD dataset 的加泰罗尼亚语专业翻译。
XQuAD(跨语言问答数据集)是用于评估跨语言问答性能的基准数据集。该数据集是从SQuAD v1.1( Rajpurkar, Pranav et al., 2016 )的开发集中抽取的240个段落和1190个问答对,以及他们对十种语言的专业翻译:西班牙语、德语、希腊语、俄语、土耳其语、阿拉伯语、越南语、泰语、汉语和印地语。后来还添加了罗马尼亚语。我们使用专业的母语加泰罗尼亚语翻译人员将第13种语言添加到语料库中。
XQuAD 和 XQuAD-Ca 数据集在 CC-by-sa 许可下发布。
跨语言问题回答,抽取式问题回答,语言模型
数据集使用加泰罗尼亚语(ca-CA)
一个json文件。
1189个示例。
{ "data": [ { "context": "Al llarg de la seva existència, Varsòvia ha estat una ciutat multicultural. Segons el cens del 1901, de 711.988 habitants, el 56,2 % eren catòlics, el 35,7 % jueus, el 5 % cristians ortodoxos grecs i el 2,8 % protestants. Vuit anys després, el 1909, hi havia 281.754 jueus (36,9 %), 18.189 protestants (2,4 %) i 2.818 mariavites (0,4 %). Això va provocar que es construïssin centenars de llocs de culte religiós a totes les parts de la ciutat. La majoria d’ells es van destruir després de la insurrecció de Varsòvia del 1944. Després de la guerra, les noves autoritats comunistes de Polònia van apocar la construcció d’esglésies i només se’n va construir un petit nombre.", "qas": [ { "answers": [ { "text": "711.988", "answer_start": 104 } ], "id": "57338007d058e614000b5bdb", "question": "Quina era la població de Varsòvia l’any 1901?" }, { "answers": [ { "text": "56,2 %", "answer_start": 126 } ], "id": "57338007d058e614000b5bdc", "question": "Dels habitants de Varsòvia l’any 1901, quin percentatge era catòlic?" }, ... ] } ] }, ... ] }
遵循SQuAD v1数据集的 Rajpurkar, Pranav et al., 2016 。
我们创建了这个数据集,以促进加泰罗尼亚语的语言模型发展,这是一种资源匮乏的语言,并与其他语言的类似数据集兼容,以便进行跨语言比较。
这个数据集是 XQuAD 的加泰罗尼亚语专业翻译,由 BSC TeMU 委托 Projecte AINA 完成。
有关XQuAD创建方式的更多信息,请参阅论文 On the Cross-lingual Transferability of Monolingual Representations 或访问 XQuAD's webpage 。
Who are the source language producers?有关XQuAD创建方式的更多信息,请参阅 On the Cross-lingual Transferability of Monolingual Representations 论文或访问 XQuAD's webpage 。
这是XQuAD语料库及其注释的专业翻译。
Annotation process[N/A]
Who are the annotators?翻译由专业翻译公司委托完成。
不包含个人或敏感信息。
这个数据集有助于加泰罗尼亚语的语言模型发展,这是一种资源匮乏的语言。
[N/A]
[N/A]
Carlos Rodríguez-Penagos (carlos.rodriguez1@bsc.es) 和 Carme Armentano-Oller (carme.armentano@bsc.es) 来自 BSC-CNS 。
该工作得到了 Departament de la Vicepresidència i de Polítiques Digitals i Territori de la Generalitat de Catalunya 在 Projecte AINA 框架内的资助。
巴塞罗那超级计算中心(Text Mining Unit (TeMU))(bsc-temu@bsc.es)
@inproceedings{armengol-estape-etal-2021-multilingual, title = "Are Multilingual Models the Best Choice for Moderately Under-resourced Languages? {A} Comprehensive Assessment for {C}atalan", author = "Armengol-Estap{\'e}, Jordi and Carrino, Casimiro Pio and Rodriguez-Penagos, Carlos and de Gibert Bonet, Ona and Armentano-Oller, Carme and Gonzalez-Agirre, Aitor and Melero, Maite and Villegas, Marta", booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021", month = aug, year = "2021", address = "Online", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2021.findings-acl.437", doi = "10.18653/v1/2021.findings-acl.437", pages = "4933--4946", }
[N/A]