数据集:
BSC-LT/viquiquad
语言:
ca预印本库:
arxiv:1606.05250如果您在您的工作中使用了任何这些资源(数据集或模型),请引用我们的最新论文:
@inproceedings{armengol-estape-etal-2021-multilingual, title = "Are Multilingual Models the Best Choice for Moderately Under-resourced Languages? {A} Comprehensive Assessment for {C}atalan", author = "Armengol-Estap{\'e}, Jordi and Carrino, Casimiro Pio and Rodriguez-Penagos, Carlos and de Gibert Bonet, Ona and Armentano-Oller, Carme and Gonzalez-Agirre, Aitor and Melero, Maite and Villegas, Marta", booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021", month = aug, year = "2021", address = "Online", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2021.findings-acl.437", doi = "10.18653/v1/2021.findings-acl.437", pages = "4933--4946", }
https://doi.org/10.5281/zenodo.4562345
该数据集包含从加泰罗尼亚语维基百科“Viquipèdia”(ca.wikipedia.org)中的597个高质量原始(非翻译)文章中提取的3111个上下文,以及每个片段的1到5个问题及其答案。
Viquipedia文章使用的是[CC-by-sa]( https://creativecommons.org/licenses/by-sa/3.0/legalcode )许可证。
该数据集可用于微调和评估抽取式问答和语言模型。它是加泰罗尼亚语理解基准(CLUB)的一部分,如以下文章中所介绍的:
Armengol-Estapé J., Carrino CP., Rodriguez-Penagos C., de Gibert Bonet O., Armentano-Oller C., Gonzalez-Agirre A., Melero M.和Villegas M.,"Are Multilingual Models the Best Choice for Moderately Under-resourced Languages? A Comprehensive Assessment for Catalan". Findings of ACL 2021 (ACL-IJCNLP 2021).
抽取式问答,语言模型
CA-加泰罗尼亚语
json 文件
遵循(Rajpurkar, Pranav等人,2016年)squad v1数据集的格式(参见下面的完整参考文献)
{ "data": [ { "title": "Frederick W. Mote", "paragraphs": [ { "context": "L'historiador Frederick W. Mote va escriure que l'ús del terme \\\\\\\\\\\\\\\\"classes socials\\\\\\\\\\\\\\\\" per a aquest sistema era enganyós i que la posició de les persones dins del sistema de quatre classes no era una indicació del seu poder social i riquesa reals, sinó que només implicava \\\\\\\\\\\\\\\\"graus de privilegi\\\\\\\\\\\\\\\\" als quals tenien dret institucionalment i legalment, de manera que la posició d'una persona dins de les classes no era una garantia de la seva posició, ja que hi havia xinesos rics i amb bona reputació social, però alhora hi havia menys mongols i semu rics que mongols i semu que vivien en la pobresa i eren maltractats.", "qas": [ { "answers": [ { "text": "Frederick W. Mote", "answer_start": 14 } ], "id": "5728848cff5b5019007da298", "question": "Qui creia que el sistema de classes socials de Yuan no s’hauria d’anomenar classes socials?" }, ... ] } ] }, ... ] }
训练、开发、测试
在过滤(分词、停用词、标点符号、大小写)后,问题中的单词中有83.88%可以在上下文中找到。
Question | Count | % |
---|---|---|
què | 4220 | 27.85 % |
qui | 2239 | 14.78 % |
com | 1964 | 12.96 % |
quan | 1133 | 7.48 % |
on | 1580 | 10.43 % |
quant | 925 | 6.1 % |
quin | 3399 | 22.43 % |
no question mark | 21 | 0.14 % |
从100个随机选择的样本中:
从一组来自加泰罗尼亚维基百科(ca.wikipedia.org)的高质量非翻译文章中,随机选择了597篇文章,并从中提取了3111个具有5-8个句子的上下文。我们委托为每个上下文制作1到5个问题,遵循来自SQUAD 1.0的指南的改编[Rajpurkar, Pranav等人的“SQuAD:文本机器理解的100, 000+个问题。” EMNLP(2016)], http://arxiv.org/abs/1606.05250 。总共创建了15153个问题和包含答案的提取片段的对。
为了与其他语言中的类似数据集兼容,我们尽可能紧密地遵循现有的策展指南。
源数据是从加泰罗尼亚语维基百科网站抓取的文章( https://ca.wikipedia.org )。
源语言的制作者是谁?[需要更多信息]
我们为每个上下文委托制作了1到5个问题,遵循了来自SQUAD 1.0的指南的改编(Rajpurkar,Pranav等人的“SQuAD:文本机器理解的100, 000+个问题。” EMNLP(2016)), http://arxiv.org/abs/1606.05250 。
注释者是谁?本地语言的使用者。
Carlos Rodríguez和Carme Armentano,来自BSC-CNS
不包含个人或敏感信息。
[需要更多信息]
[需要更多信息]
[需要更多信息]
Carlos Rodríguez-Penagos或Carme Armentano-Oller(bsc-temu@bsc.es)
本作品根据 Attribution-ShareAlike 4.0 International License 许可证授权。