数据集:

BSC-LT/viquiquad

语言:

ca

预印本库:

arxiv:1606.05250
英文

ViquiQuAD,从维基百科获取的加泰罗尼亚语抽取式问答数据集

BibTeX 引用

如果您在您的工作中使用了任何这些资源(数据集或模型),请引用我们的最新论文:

@inproceedings{armengol-estape-etal-2021-multilingual,
    title = "Are Multilingual Models the Best Choice for Moderately Under-resourced Languages? {A} Comprehensive Assessment for {C}atalan",
    author = "Armengol-Estap{\'e}, Jordi  and
      Carrino, Casimiro Pio  and
      Rodriguez-Penagos, Carlos  and
      de Gibert Bonet, Ona  and
      Armentano-Oller, Carme  and
      Gonzalez-Agirre, Aitor  and
      Melero, Maite  and
      Villegas, Marta",
    booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021",
    month = aug,
    year = "2021",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2021.findings-acl.437",
    doi = "10.18653/v1/2021.findings-acl.437",
    pages = "4933--4946",
}

数字对象标识符(DOI)和数据集文件访问

https://doi.org/10.5281/zenodo.4562345

简介

该数据集包含从加泰罗尼亚语维基百科“Viquipèdia”(ca.wikipedia.org)中的597个高质量原始(非翻译)文章中提取的3111个上下文,以及每个片段的1到5个问题及其答案。

Viquipedia文章使用的是[CC-by-sa]( https://creativecommons.org/licenses/by-sa/3.0/legalcode )许可证。

该数据集可用于微调和评估抽取式问答和语言模型。它是加泰罗尼亚语理解基准(CLUB)的一部分,如以下文章中所介绍的:

Armengol-Estapé J., Carrino CP., Rodriguez-Penagos C., de Gibert Bonet O., Armentano-Oller C., Gonzalez-Agirre A., Melero M.和Villegas M.,"Are Multilingual Models the Best Choice for Moderately Under-resourced Languages? A Comprehensive Assessment for Catalan". Findings of ACL 2021 (ACL-IJCNLP 2021).

支持的任务和排行榜

抽取式问答,语言模型

语言

CA-加泰罗尼亚语

目录结构

  • README
  • dev.json
  • test.json
  • train.json
  • viquiquad.py

数据集结构

数据实例

json 文件

数据字段

遵循(Rajpurkar, Pranav等人,2016年)squad v1数据集的格式(参见下面的完整参考文献)

示例:

{
  "data": [
    {
      "title": "Frederick W. Mote",
      "paragraphs": [
        {
          "context": "L'historiador Frederick W. Mote va escriure que l'ús del terme \\\\\\\\\\\\\\\\"classes socials\\\\\\\\\\\\\\\\" per a aquest sistema era enganyós i que la posició de les persones dins del sistema de quatre classes no era una indicació del seu poder social i riquesa reals, sinó que només implicava \\\\\\\\\\\\\\\\"graus de privilegi\\\\\\\\\\\\\\\\" als quals tenien dret institucionalment i legalment, de manera que la posició d'una persona dins de les classes no era una garantia de la seva posició, ja que hi havia xinesos rics i amb bona reputació social, però alhora hi havia menys mongols i semu rics que mongols i semu que vivien en la pobresa i eren maltractats.",
          "qas": [
            {
              "answers": [
                {
                  "text": "Frederick W. Mote",
                  "answer_start": 14
                }
              ],
              "id": "5728848cff5b5019007da298",
              "question": "Qui creia que el sistema de classes socials de Yuan no s’hauria d’anomenar classes socials?"
            },
            ...
          ]
        }
      ]
    }, 
    ...
   ]
} 

数据拆分

训练、开发、测试

内容分析

文章、段落和问题的数量

  • 文章数量:597
  • 上下文数量:3111
  • 问题数量:15153
  • 每个上下文的问题数目:4.87
  • 上下文中的句子数:15100
  • 每个上下文的句子数:4.85

标记数量

  • 上下文中的标记数:469335
  • 每个上下文的标记数:150.86
  • 问题中的标记数:145249
  • 每个问题的标记数:9.58
  • 答案中的标记数:63246
  • 每个答案的标记数:4.17

词汇变化

在过滤(分词、停用词、标点符号、大小写)后,问题中的单词中有83.88%可以在上下文中找到。

问题类型

Question Count %
què 4220 27.85 %
qui 2239 14.78 %
com 1964 12.96 %
quan 1133 7.48 %
on 1580 10.43 %
quant 925 6.1 %
quin 3399 22.43 %
no question mark 21 0.14 %

问题-答案关系

从100个随机选择的样本中:

  • 词汇变化:33.0%
  • 世界知识:16.0%
  • 句法变化:35.0%
  • 多个句子:17.0%

数据集创建

方法论

从一组来自加泰罗尼亚维基百科(ca.wikipedia.org)的高质量非翻译文章中,随机选择了597篇文章,并从中提取了3111个具有5-8个句子的上下文。我们委托为每个上下文制作1到5个问题,遵循来自SQUAD 1.0的指南的改编[Rajpurkar, Pranav等人的“SQuAD:文本机器理解的100, 000+个问题。” EMNLP(2016)], http://arxiv.org/abs/1606.05250 。总共创建了15153个问题和包含答案的提取片段的对。

策划原理

为了与其他语言中的类似数据集兼容,我们尽可能紧密地遵循现有的策展指南。

源数据

初始数据收集和规范化

源数据是从加泰罗尼亚语维基百科网站抓取的文章( https://ca.wikipedia.org )。

源语言的制作者是谁?

[需要更多信息]

注释

注释过程

我们为每个上下文委托制作了1到5个问题,遵循了来自SQUAD 1.0的指南的改编(Rajpurkar,Pranav等人的“SQuAD:文本机器理解的100, 000+个问题。” EMNLP(2016)), http://arxiv.org/abs/1606.05250

注释者是谁?

本地语言的使用者。

数据集策划者

Carlos Rodríguez和Carme Armentano,来自BSC-CNS

个人和敏感信息

不包含个人或敏感信息。

使用数据的注意事项

数据集的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

联系方式

Carlos Rodríguez-Penagos或Carme Armentano-Oller(bsc-temu@bsc.es)

许可证

本作品根据 Attribution-ShareAlike 4.0 International License 许可证授权。