数据集:

projecte-aina/viquiquad

任务:

问答

子任务:

extractive-qa

语言:

ca

计算机处理:

monolingual

大小:

10K<n<100K

语言创建人:

found

批注创建人:

expert-generated

源数据集:

original
英文

ViquiQuAD,一份来自维基百科的加泰罗尼亚语抽取问答数据集

数据集摘要

ViquiQuAD,一份来自维基百科的加泰罗尼亚语抽取问答数据集。

此数据集包含从597篇高质量原创(非翻译)的加泰罗尼亚语维基百科文章中提取的3111个上下文片段,每个片段配有1至5个问题及其答案。

Viquipedia文章使用了 CC-by-sa 许可证。

此数据集可用于微调和评估抽取问答和语言模型。

支持的任务和排行榜

抽取问答,语言模型

语言

数据集使用的语言为加泰罗尼亚语(ca-CA)。

数据集结构

数据实例

{
  'id': 'P_66_C_391_Q1',
  'title': 'Xavier Miserachs i Ribalta',
  'context': "En aquesta època es va consolidar el concepte modern del reportatge fotogràfic, diferenciat del fotoperiodisme[n. 2] i de la fotografia documental,[n. 3] pel que fa a l'abast i el concepte. El reportatge fotogràfic implica més la idea de relat: un treball que vol més dedicació de temps, un esforç d'interpretació d'una situació i que culmina en un conjunt d'imatges. Això implica, d'una banda, la reivindicació del fotògraf per opinar, fet que li atorgarà estatus d'autor; l'autor proposa, doncs, una interpretació pròpia de la realitat. D'altra banda, el consens que s'estableix entre la majoria de fotògrafs és que el vehicle natural de la imatge fotogràfica és la pàgina impresa. Això suposà que revistes com Life, Paris-Match, Stern o Época assolissin la màxima esplendor en aquest període.",
  'question': 'De què es diferenciava el reportatge fotogràfic?',
  'answers': [{
    'text': 'del fotoperiodisme[n. 2] i de la fotografia documental',
    'answer_start': 92
  }]
}

数据字段

按照SQuAD v1数据集的方式进行标注。

  • id(str):问题的唯一ID。
  • title(str):维基百科文章的标题。
  • context(str):维基百科部分文本。
  • question(str):问题。
  • answers(list):问题的答案列表,每个答案包含:
    • text(str):回答问题的文本片段。
    • answer_start:回答问题的文本片段的起始偏移位置。

数据拆分

  • 训练集:11259个示例
  • 开发集:1493个示例
  • 测试集:1428个示例

数据集创建

策划理由

我们希望该数据集能够为加泰罗尼亚语这种低资源语言的语言模型的开发做出贡献。

源数据

起始数据收集和规范化

源数据是从 Catalan wikipedia 网站中爬取的文章。

从一组高质量、非翻译的加泰罗尼亚语维基百科文章中,随机选择了597篇,从中提取了3111个包含5-8个句子的上下文片段。我们委托创建了每个上下文的1到5个问题,遵循了SQuAD 1.0( Rajpurkar, Pranav et al. (2016) )的指南。总共创建了15153个问题与包含答案的提取片段的配对。

为了与其他语言的类似数据集兼容,我们尽可能地遵循了现有的策划指南。

谁是源语言的生产者?

与加泰罗尼亚语维基百科合作的志愿者。

注释

注释过程

我们委托每个上下文创建了1到5个问题,遵循了SQuAD 1.0( Rajpurkar, Pranav et al. (2016) )的指南。

谁是注释者?

注释工作委托给了一家专门的公司,他们聘请了一支以该语言为母语的团队进行了注释。

个人和敏感信息

不包含个人或敏感信息。

使用数据的注意事项

数据的社会影响

我们希望该数据集能够为加泰罗尼亚语这种低资源语言的语言模型的开发做出贡献。

讨论偏见

[N/A]

其他已知限制

[N/A]

其他信息

数据集策划者

巴塞罗那超级计算中心(Text Mining Unit)(bsc-temu@bsc.es)

该工作受到 Departament de la Vicepresidència i de Polítiques Digitals i Territori de la Generalitat de Catalunya 的资助,并在 Projecte AINA 的框架下完成。

许可信息

该作品是根据 Attribution-ShareAlike 4.0 International License 许可证授权的。

引用信息

@inproceedings{armengol-estape-etal-2021-multilingual,
    title = "Are Multilingual Models the Best Choice for Moderately Under-resourced Languages? {A} Comprehensive Assessment for {C}atalan",
    author = "Armengol-Estap{\'e}, Jordi  and
      Carrino, Casimiro Pio  and
      Rodriguez-Penagos, Carlos  and
      de Gibert Bonet, Ona  and
      Armentano-Oller, Carme  and
      Gonzalez-Agirre, Aitor  and
      Melero, Maite  and
      Villegas, Marta",
    booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021",
    month = aug,
    year = "2021",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2021.findings-acl.437",
    doi = "10.18653/v1/2021.findings-acl.437",
    pages = "4933--4946",
}

DOI

贡献

[N/A]