数据集:

projecte-aina/xquad-ca

英文

XQuAD-Ca 数据集卡

数据集摘要

XQuAD dataset 的加泰罗尼亚语专业翻译。

XQuAD(跨语言问答数据集)是用于评估跨语言问答性能的基准数据集。该数据集是从SQuAD v1.1( Rajpurkar, Pranav et al., 2016 )的开发集中抽取的240个段落和1190个问答对,以及他们对十种语言的专业翻译:西班牙语、德语、希腊语、俄语、土耳其语、阿拉伯语、越南语、泰语、汉语和印地语。后来还添加了罗马尼亚语。我们使用专业的母语加泰罗尼亚语翻译人员将第13种语言添加到语料库中。

XQuAD 和 XQuAD-Ca 数据集在 CC-by-sa 许可下发布。

支持的任务和排行榜

跨语言问题回答,抽取式问题回答,语言模型

语言

数据集使用加泰罗尼亚语(ca-CA)

数据集结构

数据实例

一个json文件。

1189个示例。

{
  "data": [
    {
          "context": "Al llarg de la seva existència, Varsòvia ha estat una ciutat multicultural. Segons el cens del 1901, de 711.988 habitants, el 56,2 % eren catòlics, el 35,7 % jueus, el 5 % cristians ortodoxos grecs i el 2,8 % protestants. Vuit anys després, el 1909, hi havia 281.754 jueus (36,9 %), 18.189 protestants (2,4 %) i 2.818 mariavites (0,4 %). Això va provocar que es construïssin centenars de llocs de culte religiós a totes les parts de la ciutat. La majoria d’ells es van destruir després de la insurrecció de Varsòvia del 1944. Després de la guerra, les noves autoritats comunistes de Polònia van apocar la construcció d’esglésies i només se’n va construir un petit nombre.",
          "qas": [
            {
              "answers": [
                {
                  "text": "711.988",
                  "answer_start": 104
                }
              ],
              "id": "57338007d058e614000b5bdb",
              "question": "Quina era la població de Varsòvia l’any 1901?"
            },
            {
              "answers": [
                {
                  "text": "56,2 %",
                  "answer_start": 126
                }
              ],
              "id": "57338007d058e614000b5bdc",
              "question": "Dels habitants de Varsòvia l’any 1901, quin percentatge era catòlic?"
            },
            ...
          ]
        }
      ]
    }, 
    ...

   ]
} 

数据字段

遵循SQuAD v1数据集的 Rajpurkar, Pranav et al., 2016

  • id(str):分配给问题的唯一ID。
  • title(str):维基百科文章的标题。
  • context(str):维基百科部分文字。
  • question(str):问题。
  • answers(list):问题的答案列表,每个包含:
    • text(str):回答问题的文本范围。
    • answer_start:回答问题的文本范围的起始偏移量。

数据切分

  • test.json:1189个示例。

数据集创建

策划理由

我们创建了这个数据集,以促进加泰罗尼亚语的语言模型发展,这是一种资源匮乏的语言,并与其他语言的类似数据集兼容,以便进行跨语言比较。

数据来源

Initial Data Collection and Normalization

这个数据集是 XQuAD 的加泰罗尼亚语专业翻译,由 BSC TeMU 委托 Projecte AINA 完成。

有关XQuAD创建方式的更多信息,请参阅论文 On the Cross-lingual Transferability of Monolingual Representations 或访问 XQuAD's webpage

Who are the source language producers?

有关XQuAD创建方式的更多信息,请参阅 On the Cross-lingual Transferability of Monolingual Representations 论文或访问 XQuAD's webpage

注释

这是XQuAD语料库及其注释的专业翻译。

Annotation process

[N/A]

Who are the annotators?

翻译由专业翻译公司委托完成。

个人和敏感信息

不包含个人或敏感信息。

使用数据的注意事项

数据的社会影响

这个数据集有助于加泰罗尼亚语的语言模型发展,这是一种资源匮乏的语言。

讨论偏见

[N/A]

其他已知限制

[N/A]

其他信息

数据集策划者

Carlos Rodríguez-Penagos (carlos.rodriguez1@bsc.es) 和 Carme Armentano-Oller (carme.armentano@bsc.es) 来自 BSC-CNS

该工作得到了 Departament de la Vicepresidència i de Polítiques Digitals i Territori de la Generalitat de Catalunya Projecte AINA 框架内的资助。

许可信息

巴塞罗那超级计算中心(Text Mining Unit (TeMU))(bsc-temu@bsc.es)

引用信息

@inproceedings{armengol-estape-etal-2021-multilingual,
    title = "Are Multilingual Models the Best Choice for Moderately Under-resourced Languages? {A} Comprehensive Assessment for {C}atalan",
    author = "Armengol-Estap{\'e}, Jordi  and
      Carrino, Casimiro Pio  and
      Rodriguez-Penagos, Carlos  and
      de Gibert Bonet, Ona  and
      Armentano-Oller, Carme  and
      Gonzalez-Agirre, Aitor  and
      Melero, Maite  and
      Villegas, Marta",
    booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021",
    month = aug,
    year = "2021",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2021.findings-acl.437",
    doi = "10.18653/v1/2021.findings-acl.437",
    pages = "4933--4946",
}

DOI

贡献

[N/A]