数据集:
BSC-LT/SQAC
任务:
问答子任务:
extractive-qa语言:
es计算机处理:
monolingual语言创建人:
found批注创建人:
expert-generated源数据集:
original许可:
cc-by-sa-4.0⚠️注意⚠️:此模型已移至以下URL,不久将被删除: https://huggingface.co/datasets/PlanTL-GOB-ES/SQAC
@article{DBLP:journals/corr/abs-2107-07253, author = {Asier Guti{\'{e}}rrez{-}Fandi{\~{n}}o and Jordi Armengol{-}Estap{\'{e}} and Marc P{\`{a}}mies and Joan Llop{-}Palao and Joaqu{\'{\i}}n Silveira{-}Ocampo and Casimiro Pio Carrino and Aitor Gonzalez{-}Agirre and Carme Armentano{-}Oller and Carlos Rodr{\'{\i}}guez Penagos and Marta Villegas}, title = {Spanish Language Models}, journal = {CoRR}, volume = {abs/2107.07253}, year = {2021}, url = {https://arxiv.org/abs/2107.07253}, archivePrefix = {arXiv}, eprint = {2107.07253}, timestamp = {Wed, 21 Jul 2021 15:55:35 +0200}, biburl = {https://dblp.org/rec/journals/corr/abs-2107-07253.bib}, bibsource = {dblp computer science bibliography, https://dblp.org} }
有关详细信息,请参阅我们论文的预印版本: https://arxiv.org/abs/2107.07253
该数据集包含6,247个上下文和18,817个问题及其答案,每个片段的答案数量为1至5个。
上下文的来源包括:
该数据集可用于构建抽取式问答。
抽取式问答
ES - 西班牙语
JSON文件
遵循(Rajpurkar, Pranav 等人,2016)关于SQuAD v1数据集的规范(完整的参考资料请参见下文)。我们添加了一个字段“source”,用于标识上下文的来源。
{ "data": [ { "paragraphs": [ { "context": "Al cogote, y fumando como una cafetera. Ah!, no era él, éramos todos nosotros. Luego llegó Billie Holiday. Bajo el epígrafe Arte, la noche temática, pasaron la vida de la única cantante del universo que no es su voz, sino su alma lo que se escucha cuando interpreta. Gata golpeada por el mundo, pateada, violada, enganchada a todos los paraísos artificiales del planeta, jamás encontró el Edén. El Edén lo encontramos nosotros cuando, al concluir la sesión de la tele, pusimos en la doméstica cadena de sonido el mítico Last Recording, su última grabación (marzo de 1959), con la orquesta de Ray Ellis y el piano de Hank Jones. Se estaba muriendo Lady Day, y no obstante, mientras moría, su alma cantaba, Baby, won't you please come home. O sea, niño, criatura, amor, vuelve, a casa por favor.", "qas": [ { "question": "¿Quién se incorporó a la reunión más adelante?", "id": "c5429572-64b8-4c5d-9553-826f867b07be", "answers": [ { "answer_start": 91, "text": "Billie Holiday" } ] }, ... ] } ], "title": "P_129_20010702_&_P_154_20010102_&_P_108_20000301_c_&_P_108_20000601_d", "source": "ancora" }, ... ] }
问句中的46.38%的单词可以在上下文中找到。
Question | Count | % |
---|---|---|
qué | 6,381 | 33.91 % |
quién/es | 2,952 | 15.69 % |
cuál/es | 2,034 | 10.81 % |
cómo | 1,949 | 10.36 % |
dónde | 1,856 | 9.86 % |
cuándo | 1,639 | 8.71 % |
cuánto | 1,311 | 6.97 % |
cuántos | 495 | 2.63 % |
adónde | 100 | 0.53 % |
cuánta | 49 | 0.26 % |
no question mark | 43 | 0.23 % |
cuántas | 19 | 0.10 % |
从下面描述的三个语料库中随机选择了6,247个上下文。我们委托为每个上下文创建了1至5个问题,遵循SQuAD 1.0的指南适应版 Rajpurkar, Pranav et al. “SQuAD: 100, 000+ Questions for Machine Comprehension of Text.” EMNLP (2016) 。总共创建了18,817个问题和包含答案的片段对。
为了与其他语言的类似数据集兼容,我们尽量遵循现有的策划指南。我们还使用维基百科创建了另一个具有主题和文体多样性的问答数据集。
初始化数据收集和规范化
源数据是从西班牙语维基百科网站、维基新闻网站和AnCora语料库中获取的文章。
谁是源语言的制作者?[需要更多信息]
我们为每个上下文委托了1至5个问题的创建,遵循SQuAD 1.0的指南适应版 Rajpurkar, Pranav et al. “SQuAD: 100, 000+ Questions for Machine Comprehension of Text.” EMNLP (2016) 。
谁是标注者?母语人士。
Carlos Rodríguez和Carme Armentano,来自BSC-CNS。
不包括个人或敏感信息。
[需要更多信息]
[需要更多信息]
[需要更多信息]
Carlos Rodríguez-Penagos或 Carme Armentano-Oller(bsc-temu@bsc.es)
该工作得到了西班牙数字化和人工智能国务秘书办公室(SEDIA)在计划TL框架内的部分资助。
本作品根据 Attribution-ShareAlike 4.0 International License 许可证进行许可。