数据集:

BSC-LT/xquad-ca

语言:

ca

预印本库:

arxiv:1910.11856
英文

XQuAD-Ca

BibTeX 引用

如果您在工作中使用了这些资源(数据集或模型),请引用我们的最新论文:

@inproceedings{armengol-estape-etal-2021-multilingual,
    title = "Are Multilingual Models the Best Choice for Moderately Under-resourced Languages? {A} Comprehensive Assessment for {C}atalan",
    author = "Armengol-Estap{\'e}, Jordi  and
      Carrino, Casimiro Pio  and
      Rodriguez-Penagos, Carlos  and
      de Gibert Bonet, Ona  and
      Armentano-Oller, Carme  and
      Gonzalez-Agirre, Aitor  and
      Melero, Maite  and
      Villegas, Marta",
    booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021",
    month = aug,
    year = "2021",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2021.findings-acl.437",
    doi = "10.18653/v1/2021.findings-acl.437",
    pages = "4933--4946",
}

数字对象标识符(DOI)和访问数据集文件

https://doi.org/10.5281/zenodo.4526224

引言

XQuAD 数据集( https://github.com/deepmind/xquad )的加泰罗尼亚语专业翻译。

XQuAD(跨语言问答数据集)是用于评估跨语言问答性能的基准数据集。该数据集由 SQuAD v1.1(Rajpurkar et al., 2016)的开发集中的 240 段落和 1190 个问题-答案对的一个子集,以及它们的专业翻译组成,涵盖了十种语言:西班牙语,德语,希腊语,俄语,土耳其语,阿拉伯语,越南语,泰语,中文和印地语。后来加入了罗马尼亚语。我们使用专业加泰罗尼亚语翻译人员将第13种语言添加到语料库中。

XQuAD 和 XQuAD-Ca 数据集采用 [CC-by-sa]( https://creativecommons.org/licenses/by-sa/3.0/legalcode )许可发布。

支持的任务和排行榜

跨语言问答,抽取式问答,语言模型

语言

加泰罗尼亚语

目录结构

  • README.md
  • .gitattributes
  • test.json - 以 json 格式保存的数据集文件
  • xquad-ca.py

数据集结构

数据实例

一个 json 文件

数据字段

遵循 SQuAD v1 数据集的((Rajpurkar, Pranav et al., 2016) 参考下面的完整引用)

示例:

{
  "data": [
    {
    
          "context": "Al llarg de la seva existència, Varsòvia ha estat una ciutat multicultural. Segons el cens del 1901, de 711.988 habitants, el 56,2 % eren catòlics, el 35,7 % jueus, el 5 % cristians ortodoxos grecs i el 2,8 % protestants. Vuit anys després, el 1909, hi havia 281.754 jueus (36,9 %), 18.189 protestants (2,4 %) i 2.818 mariavites (0,4 %). Això va provocar que es construïssin centenars de llocs de culte religiós a totes les parts de la ciutat. La majoria d’ells es van destruir després de la insurrecció de Varsòvia del 1944. Després de la guerra, les noves autoritats comunistes de Polònia van apocar la construcció d’esglésies i només se’n va construir un petit nombre.",
          "qas": [
            
            {
              "answers": [
                {
                  "text": "711.988",
                  "answer_start": 104
                }
              ],
              "id": "57338007d058e614000b5bdb",
              "question": "Quina era la població de Varsòvia l’any 1901?"
            },
            {
              "answers": [
                {
                  "text": "56,2 %",
                  "answer_start": 126
                }
              ],
              "id": "57338007d058e614000b5bdc",
              "question": "Dels habitants de Varsòvia l’any 1901, quin percentatge era catòlic?"
            },
    
            ...
          ]
        }
      ]
    }, 
    ...
   ]
} 

数据集分割

一个

数据集创建

方法论

获取有关创建 XQuAD 的更多信息,请参阅论文《关于单语表示的跨语言可迁移性》( https://arxiv.org/abs/1910.11856 ),或访问网页 https://github.com/deepmind/xquad

加泰罗尼亚语的翻译是由 BSC TeMU 在 AINA 项目中委托完成的。

策划理由

为了与其他语言中的类似数据集兼容,并进行跨语言比较。

源数据

初始数据收集和规范化

将 XQuAD 进行专业加泰罗尼亚语翻译

源语言制作者是谁?

获取有关创建 XQuAD 的更多信息,请参阅论文《关于单语表示的跨语言可迁移性》( https://arxiv.org/abs/1910.11856 ),或访问网页 https://github.com/deepmind/xquad

注释

注释过程

注释员是谁?

翻译由专业翻译公司委托完成。

数据集策划者

Carlos Rodríguez 和 Carme Armentano,来自 BSC-CNS

个人和敏感信息

不包含个人或敏感信息。

使用数据时的注意事项

数据集的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

联系方式

Carlos Rodríguez-Penagos 或 Carme Armentano-Oller( bsc-temu@bsc.es )

许可证

本作品根据 Attribution-ShareAlike 4.0 International License 许可证。