数据集:

PlanTL-GOB-ES/SQAC

任务:

问答

子任务:

extractive-qa

语言:

es

计算机处理:

monolingual

语言创建人:

found

批注创建人:

expert-generated

源数据集:

original

预印本库:

arxiv:1606.05250
英文

SQAC(西班牙语问答语料库)

数据集描述

SQAC是用于西班牙语的摘录问答数据集。

数据集概述

包含6,247个上下文和18,817个带有相应答案的问题,每个片段为1到5个。

上下文的来源是:

支持的任务

提取式问答

语言

  • 西班牙语(es)

目录结构

  • README.md
  • SQAC.py
  • dev.json
  • test.json
  • train.json

数据集结构

数据实例

{
    'id': '6cf3dcd6-b5a3-4516-8f9e-c5c1c6b66628', 
    'title': 'Historia de Japón', 
    'context': 'La historia de Japón (日本の歴史 o 日本史, Nihon no rekishi / Nihonshi?) es la sucesión de hechos acontecidos dentro del archipiélago japonés. Algunos de estos hechos aparecen aislados e influenciados por la naturaleza geográfica de Japón como nación insular, en tanto que otra serie de hechos, obedece a influencias foráneas como en el caso del Imperio chino, el cual definió su idioma, su escritura y, también, su cultura política. Asimismo, otra de las influencias foráneas fue la de origen occidental, lo que convirtió al país en una nación industrial, ejerciendo con ello una esfera de influencia y una expansión territorial sobre el área del Pacífico. No obstante, dicho expansionismo se detuvo tras la Segunda Guerra Mundial y el país se posicionó en un esquema de nación industrial con vínculos a su tradición cultural.', 
    'question': '¿Qué influencia convirtió Japón en una nación industrial?', 
    'answers': {
        'text': ['la de origen occidental'], 
        'answer_start': [473]
    }
}

数据字段

{
  id: str
  title: str
  context: str
  question: str
  answers: {
    answer_start: [int]
    text: [str]
  }
}

数据拆分

Split Size
train 15,036
dev 1,864
test 1.910

内容分析

文章、段落和问题的数量

  • 文章数:3,834
  • 上下文数:6,247
  • 问题数:18,817
  • 句子数:48,026
  • 问题/上下文比率:3.01
  • 句子/上下文比率:7.70

令牌数量

  • 上下文中的总令牌数:1,561,616
  • 平均每个上下文的令牌数:250
  • 问题中的总令牌数:203,235
  • 平均每个问题的令牌数:10.80
  • 答案中的总令牌数:90,307
  • 平均每个答案的令牌数:4.80

词汇变化

问题中有46.38%的单词可以在上下文中找到。

问题类型

Question Count %
qué 6,381 33.91 %
quién/es 2,952 15.69 %
cuál/es 2,034 10.81 %
cómo 1,949 10.36 %
dónde 1,856 9.86 %
cuándo 1,639 8.71 %
cuánto 1,311 6.97 %
cuántos 495 2.63 %
adónde 100 0.53 %
cuánta 49 0.26 %
no question mark 43 0.23 %
cuántas 19 0.10 %

数据集创建

策划理由

为了与其他语言中的类似数据集兼容,我们尽可能接近SQUAD 1.0的现有策划指南 (Rajpurkar, Pranav et al.)

源数据

初始数据收集和标准化

源数据是从Wikinews、西班牙语维基百科和AnCora语料库中抓取的文章。

谁是源语言的制片人?

上述网站的参与者。

注释

注释过程

我们委托为每个上下文创建1到5个问题,按照SQUAD 1.0的指南进行了适应。

谁是注释者?

母语为西班牙语的人。

个人和敏感信息

不包含个人或敏感信息。

使用数据的注意事项

数据的社会影响

这个语料库有助于西班牙语语言模型的开发。

偏见讨论

没有采取后处理步骤来减轻潜在的社会偏见。

其他信息

数据集策划者

巴塞罗那超级计算中心(BSU)文本挖掘单元(TeMU)( bsc-temu@bsc.es)。

如需更多信息,请发送电子邮件至(plantl-gob-es@bsc.es)。

该工作在 Spanish State Secretariat for Digitalization and Artificial Intelligence (SEDIA) 的框架内,由 Plan-TL 资助。

授权信息

该作品根据 CC Attribution 4.0 International 许可证获得许可。

西班牙数字化和人工智能国家秘书处(SEDIA)版权所有(2022年)

引用信息

@article{maria,
    author = {Asier Gutiérrez-Fandiño and Jordi Armengol-Estapé and Marc Pàmies and Joan Llop-Palao and Joaquin Silveira-Ocampo and Casimiro Pio Carrino and Carme Armentano-Oller and Carlos Rodriguez-Penagos and Aitor Gonzalez-Agirre and Marta Villegas},
    title = {MarIA: Spanish Language Models},
    journal = {Procesamiento del Lenguaje Natural},
    volume = {68},
    number = {0},
    year = {2022},
    issn = {1989-7553},
    url = {http://journal.sepln.org/sepln/ojs/ojs/index.php/pln/article/view/6405},
    pages = {39--60}
}

贡献

[N/A]