数据集:

BSC-LT/viquiquad

语言:

预印本库:

arxiv:1606.05250

数据集介绍文件清单

英文

ViquiQuAD，从维基百科获取的加泰罗尼亚语抽取式问答数据集

BibTeX 引用

如果您在您的工作中使用了任何这些资源（数据集或模型），请引用我们的最新论文：

@inproceedings{armengol-estape-etal-2021-multilingual,
    title = "Are Multilingual Models the Best Choice for Moderately Under-resourced Languages? {A} Comprehensive Assessment for {C}atalan",
    author = "Armengol-Estap{\'e}, Jordi  and
      Carrino, Casimiro Pio  and
      Rodriguez-Penagos, Carlos  and
      de Gibert Bonet, Ona  and
      Armentano-Oller, Carme  and
      Gonzalez-Agirre, Aitor  and
      Melero, Maite  and
      Villegas, Marta",
    booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021",
    month = aug,
    year = "2021",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2021.findings-acl.437",
    doi = "10.18653/v1/2021.findings-acl.437",
    pages = "4933--4946",
}

数字对象标识符（DOI）和数据集文件访问

https://doi.org/10.5281/zenodo.4562345

简介

该数据集包含从加泰罗尼亚语维基百科“Viquipèdia”（ca.wikipedia.org）中的597个高质量原始（非翻译）文章中提取的3111个上下文，以及每个片段的1到5个问题及其答案。

Viquipedia文章使用的是[CC-by-sa]（ https://creativecommons.org/licenses/by-sa/3.0/legalcode ）许可证。

该数据集可用于微调和评估抽取式问答和语言模型。它是加泰罗尼亚语理解基准（CLUB）的一部分，如以下文章中所介绍的：

Armengol-Estapé J., Carrino CP., Rodriguez-Penagos C., de Gibert Bonet O., Armentano-Oller C., Gonzalez-Agirre A., Melero M.和Villegas M.,"Are Multilingual Models the Best Choice for Moderately Under-resourced Languages? A Comprehensive Assessment for Catalan". Findings of ACL 2021 (ACL-IJCNLP 2021).

支持的任务和排行榜

抽取式问答，语言模型

语言

CA-加泰罗尼亚语

目录结构

README
dev.json
test.json
train.json
viquiquad.py

数据集结构

数据实例

json 文件

数据字段

遵循（Rajpurkar, Pranav等人，2016年）squad v1数据集的格式（参见下面的完整参考文献）

示例：

{
  "data": [
    {
      "title": "Frederick W. Mote",
      "paragraphs": [
        {
          "context": "L'historiador Frederick W. Mote va escriure que l'ús del terme \\\\\\\\\\\\\\\\"classes socials\\\\\\\\\\\\\\\\" per a aquest sistema era enganyós i que la posició de les persones dins del sistema de quatre classes no era una indicació del seu poder social i riquesa reals, sinó que només implicava \\\\\\\\\\\\\\\\"graus de privilegi\\\\\\\\\\\\\\\\" als quals tenien dret institucionalment i legalment, de manera que la posició d'una persona dins de les classes no era una garantia de la seva posició, ja que hi havia xinesos rics i amb bona reputació social, però alhora hi havia menys mongols i semu rics que mongols i semu que vivien en la pobresa i eren maltractats.",
          "qas": [
            {
              "answers": [
                {
                  "text": "Frederick W. Mote",
                  "answer_start": 14
                }
              ],
              "id": "5728848cff5b5019007da298",
              "question": "Qui creia que el sistema de classes socials de Yuan no s’hauria d’anomenar classes socials?"
            },
            ...
          ]
        }
      ]
    }, 
    ...
   ]
}

数据拆分

训练、开发、测试

内容分析

文章、段落和问题的数量

文章数量：597
上下文数量：3111
问题数量：15153
每个上下文的问题数目：4.87
上下文中的句子数：15100
每个上下文的句子数：4.85

标记数量

上下文中的标记数：469335
每个上下文的标记数：150.86
问题中的标记数：145249
每个问题的标记数：9.58
答案中的标记数：63246
每个答案的标记数：4.17

词汇变化

在过滤（分词、停用词、标点符号、大小写）后，问题中的单词中有83.88%可以在上下文中找到。

问题类型

Question	Count	%
què	4220	27.85 %
qui	2239	14.78 %
com	1964	12.96 %
quan	1133	7.48 %
on	1580	10.43 %
quant	925	6.1 %
quin	3399	22.43 %
no question mark	21	0.14 %

问题-答案关系

从100个随机选择的样本中：

词汇变化：33.0%
世界知识：16.0%
句法变化：35.0%
多个句子：17.0%

数据集创建

方法论

从一组来自加泰罗尼亚维基百科（ca.wikipedia.org）的高质量非翻译文章中，随机选择了597篇文章，并从中提取了3111个具有5-8个句子的上下文。我们委托为每个上下文制作1到5个问题，遵循来自SQUAD 1.0的指南的改编[Rajpurkar, Pranav等人的“SQuAD：文本机器理解的100, 000+个问题。” EMNLP（2016）]， http://arxiv.org/abs/1606.05250 。总共创建了15153个问题和包含答案的提取片段的对。

策划原理

为了与其他语言中的类似数据集兼容，我们尽可能紧密地遵循现有的策展指南。

源数据

https://ca.wikipedia.org

初始数据收集和规范化

源数据是从加泰罗尼亚语维基百科网站抓取的文章（ https://ca.wikipedia.org ）。

源语言的制作者是谁？

[需要更多信息]

注释

注释过程

我们为每个上下文委托制作了1到5个问题，遵循了来自SQUAD 1.0的指南的改编（Rajpurkar，Pranav等人的“SQuAD：文本机器理解的100, 000+个问题。” EMNLP（2016））， http://arxiv.org/abs/1606.05250 。

注释者是谁？

本地语言的使用者。

数据集策划者

Carlos Rodríguez和Carme Armentano，来自BSC-CNS

个人和敏感信息

不包含个人或敏感信息。

使用数据的注意事项

数据集的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

联系方式

Carlos Rodríguez-Penagos或Carme Armentano-Oller（bsc-temu@bsc.es）

许可证

本作品根据 Attribution-ShareAlike 4.0 International License 许可证授权。

作者:

BSC-LT

数据集大小:

4.96 MB