数据集:

projecte-aina/vilaquad

任务:

问答

子任务:

extractive-qa

语言:

计算机处理:

monolingual

大小:

1K<n<10K

语言创建人:

found

批注创建人:

expert-generated

源数据集:

original

预印本库:

arxiv:2107.07903 arxiv:1606.05250

许可:

cc-by-sa-4.0

数据集介绍文件清单

英文

VilaQuAD 数据集卡片

数据集摘要

VilaQuAD 是一个用于加泰罗尼亚语的抽取型问答数据集，从 VilaWeb 条新闻文本中提取而来。

该数据集包含2095篇加泰罗尼亚语新闻文章，每篇文章附带1至5个问题。

VilaQuAD 文章是从每日新闻 VilaWeb 中提取出来并在 CC-by-nc-sa-nd 许可下使用的。

此数据集可用于构建抽取型问答和语言模型。

支持的任务和排行榜

抽取型问答，语言模型。

语言

数据集使用的语言为加泰罗尼亚语 (ca-CA)。

数据集结构

数据实例

{
  'id': 'P_556_C_556_Q1',
  'title': "El Macba posa en qüestió l'eufòria amnèsica dels anys vuitanta a l'estat espanyol",
  'context': "El Macba ha obert una nova exposició, 'Gelatina dura. Històries escamotejades dels 80', dedicada a revisar el discurs hegemònic que es va instaurar en aquella dècada a l'estat espanyol, concretament des del començament de la transició, el 1977, fins a la fita de Barcelona 92. És una mirada en clau espanyola, però també centralista, perquè més enllà dels esdeveniments ocorreguts a Catalunya i els artistes que els van combatre, pràcticament només s'hi mostren fets polítics i culturals generats des de Madrid. No es parla del País Basc, per exemple. Però, dit això, l'exposició revisa aquesta dècada de la història recent tot qüestionant un triomfalisme homogeneïtzador, que ja se sap que va arrasar una gran quantitat de sectors crítics i radicals de l'àmbit social, polític i cultural. Com diu la comissària, Teresa Grandas, de l'equip del Macba: 'El relat oficial dels anys vuitanta a l'estat espanyol va prioritzar la necessitat per damunt de la raó i va consolidar una mirada que privilegiava el futur abans que l'anàlisi del passat recent, obviant qualsevol consideració crítica respecte de la filiació amb el poder franquista.",
  'question': 'Com es diu la nova exposició que ha obert el Macba?',
  'answers': [
    {
      'text': "'Gelatina dura. Històries escamotejades dels 80'",
      'answer_start': 38
    }
  ]
}

数据字段

遵循 SQuAD v1 数据集的 Rajpurkar, Pranav et al., (2016) 。

id (str): 分配给问题的唯一标识符。
title (str): VilaWeb 文章的标题。
context (str): VilaWeb 区块的文本。
question (str): 问题。
answers (list): 回答问题的答案列表，每个答案包含：
- text (str): 回答问题的文本片段。
- answer_start: 回答问题文本片段的起始偏移位置。

数据拆分

train.json: 1295 个上下文、3882 个问题
dev.json: 400 个上下文、1200 个问题
test.json: 400 个上下文、1200 个问题

数据集创建

策展原因

我们创建该数据集是为了促进加泰罗尼亚语（一种资源稀缺的语言）的语言模型的发展。

源数据

VilaWeb site

原始数据收集和规范化

源数据是从加泰罗尼亚报纸网站 Vilaweb 的档案中爬取的文章。

从每日新闻的在线版 VilaWeb 中随机选择了2095篇文章。这些标题还用于创建文本蕴涵数据集。对于抽取型问答数据集，为每个新闻上下文委托创建了1至5个问题，根据 SQuAD 1.0（ Rajpurkar, Pranav et al. (2016) ）的指南进行调整。总共创建了6282对问题和包含答案的抽取出的片段。

为了与其他语言中类似数据集兼容，我们尽可能地遵循现有的策展指南。我们还创建了 another QA dataset with wikipedia 以确保在主题和风格上的多样性。

谁是源语言的生成者？

来自加泰罗尼亚报纸 VilaWeb 的专业记者。

注释

注释过程

我们为每个上下文委托创建了1至5个问题，根据 SQuAD 1.0（ Rajpurkar, Pranav et al. (2016) ）的指南进行调整。

谁是标注者？

标注工作委托给了一家专门公司，他们聘请了一支以母语为加泰罗尼亚语的团队。

个人和敏感信息

不包含个人或敏感信息。

使用数据的注意事项

数据的社会影响

我们希望这个数据集能够促进加泰罗尼亚语（一种资源稀缺的语言）语言模型的发展。

偏见讨论

[无]

其他已知限制

[无]

附加信息

数据集策展人

巴塞罗那超级计算中心（Barcelona Supercomputing Center）的文本挖掘部门（bsc-temu@bsc.es）

该工作由框架内的 Departament de la Vicepresidència i de Polítiques Digitals i Territori de la Generalitat de Catalunya 资助。

许可信息

该工作根据 Attribution-ShareAlike 4.0 International License 进行许可。

引用信息

@inproceedings{armengol-estape-etal-2021-multilingual,
    title = "Are Multilingual Models the Best Choice for Moderately Under-resourced Languages? {A} Comprehensive Assessment for {C}atalan",
    author = "Armengol-Estap{\'e}, Jordi  and
      Carrino, Casimiro Pio  and
      Rodriguez-Penagos, Carlos  and
      de Gibert Bonet, Ona  and
      Armentano-Oller, Carme  and
      Gonzalez-Agirre, Aitor  and
      Melero, Maite  and
      Villegas, Marta",
    booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021",
    month = aug,
    year = "2021",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2021.findings-acl.437",
    doi = "10.18653/v1/2021.findings-acl.437",
    pages = "4933--4946",
}

DOI

贡献

[无]

作者:

projecte-aina

数据集大小:

3.65 MB