数据集:
BSC-LT/xquad-ca
语言:
ca预印本库:
arxiv:1910.11856如果您在工作中使用了这些资源(数据集或模型),请引用我们的最新论文:
@inproceedings{armengol-estape-etal-2021-multilingual, title = "Are Multilingual Models the Best Choice for Moderately Under-resourced Languages? {A} Comprehensive Assessment for {C}atalan", author = "Armengol-Estap{\'e}, Jordi and Carrino, Casimiro Pio and Rodriguez-Penagos, Carlos and de Gibert Bonet, Ona and Armentano-Oller, Carme and Gonzalez-Agirre, Aitor and Melero, Maite and Villegas, Marta", booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021", month = aug, year = "2021", address = "Online", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2021.findings-acl.437", doi = "10.18653/v1/2021.findings-acl.437", pages = "4933--4946", }
https://doi.org/10.5281/zenodo.4526224
XQuAD 数据集( https://github.com/deepmind/xquad )的加泰罗尼亚语专业翻译。
XQuAD(跨语言问答数据集)是用于评估跨语言问答性能的基准数据集。该数据集由 SQuAD v1.1(Rajpurkar et al., 2016)的开发集中的 240 段落和 1190 个问题-答案对的一个子集,以及它们的专业翻译组成,涵盖了十种语言:西班牙语,德语,希腊语,俄语,土耳其语,阿拉伯语,越南语,泰语,中文和印地语。后来加入了罗马尼亚语。我们使用专业加泰罗尼亚语翻译人员将第13种语言添加到语料库中。
XQuAD 和 XQuAD-Ca 数据集采用 [CC-by-sa]( https://creativecommons.org/licenses/by-sa/3.0/legalcode )许可发布。
跨语言问答,抽取式问答,语言模型
加泰罗尼亚语
一个 json 文件
遵循 SQuAD v1 数据集的((Rajpurkar, Pranav et al., 2016) 参考下面的完整引用)
{ "data": [ { "context": "Al llarg de la seva existència, Varsòvia ha estat una ciutat multicultural. Segons el cens del 1901, de 711.988 habitants, el 56,2 % eren catòlics, el 35,7 % jueus, el 5 % cristians ortodoxos grecs i el 2,8 % protestants. Vuit anys després, el 1909, hi havia 281.754 jueus (36,9 %), 18.189 protestants (2,4 %) i 2.818 mariavites (0,4 %). Això va provocar que es construïssin centenars de llocs de culte religiós a totes les parts de la ciutat. La majoria d’ells es van destruir després de la insurrecció de Varsòvia del 1944. Després de la guerra, les noves autoritats comunistes de Polònia van apocar la construcció d’esglésies i només se’n va construir un petit nombre.", "qas": [ { "answers": [ { "text": "711.988", "answer_start": 104 } ], "id": "57338007d058e614000b5bdb", "question": "Quina era la població de Varsòvia l’any 1901?" }, { "answers": [ { "text": "56,2 %", "answer_start": 126 } ], "id": "57338007d058e614000b5bdc", "question": "Dels habitants de Varsòvia l’any 1901, quin percentatge era catòlic?" }, ... ] } ] }, ... ] }
一个
获取有关创建 XQuAD 的更多信息,请参阅论文《关于单语表示的跨语言可迁移性》( https://arxiv.org/abs/1910.11856 ),或访问网页 https://github.com/deepmind/xquad
加泰罗尼亚语的翻译是由 BSC TeMU 在 AINA 项目中委托完成的。
为了与其他语言中的类似数据集兼容,并进行跨语言比较。
将 XQuAD 进行专业加泰罗尼亚语翻译
源语言制作者是谁?获取有关创建 XQuAD 的更多信息,请参阅论文《关于单语表示的跨语言可迁移性》( https://arxiv.org/abs/1910.11856 ),或访问网页 https://github.com/deepmind/xquad
无
注释员是谁?翻译由专业翻译公司委托完成。
Carlos Rodríguez 和 Carme Armentano,来自 BSC-CNS
不包含个人或敏感信息。
[需要更多信息]
[需要更多信息]
[需要更多信息]
Carlos Rodríguez-Penagos 或 Carme Armentano-Oller( bsc-temu@bsc.es )