数据集:

BSC-LT/SQAC

任务:

问答

子任务:

extractive-qa

语言:

es

计算机处理:

monolingual

语言创建人:

found

批注创建人:

expert-generated

源数据集:

original
英文

⚠️注意⚠️:此模型已移至以下URL,不久将被删除: https://huggingface.co/datasets/PlanTL-GOB-ES/SQAC

SQAC(西班牙语问答语料库):用于西班牙语的抽取式问答数据集

BibTeX引用

@article{DBLP:journals/corr/abs-2107-07253,
  author    = {Asier Guti{\'{e}}rrez{-}Fandi{\~{n}}o and
               Jordi Armengol{-}Estap{\'{e}} and
               Marc P{\`{a}}mies and
               Joan Llop{-}Palao and
               Joaqu{\'{\i}}n Silveira{-}Ocampo and
               Casimiro Pio Carrino and
               Aitor Gonzalez{-}Agirre and
               Carme Armentano{-}Oller and
               Carlos Rodr{\'{\i}}guez Penagos and
               Marta Villegas},
  title     = {Spanish Language Models},
  journal   = {CoRR},
  volume    = {abs/2107.07253},
  year      = {2021},
  url       = {https://arxiv.org/abs/2107.07253},
  archivePrefix = {arXiv},
  eprint    = {2107.07253},
  timestamp = {Wed, 21 Jul 2021 15:55:35 +0200},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2107-07253.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

有关详细信息,请参阅我们论文的预印版本: https://arxiv.org/abs/2107.07253

简介

该数据集包含6,247个上下文和18,817个问题及其答案,每个片段的答案数量为1至5个。

上下文的来源包括:

该数据集可用于构建抽取式问答。

支持的任务和排行榜

抽取式问答

语言

ES - 西班牙语

目录结构

  • README.md
  • dev.json
  • test.json
  • train.json
  • sqac.py

数据集结构

数据实例

JSON文件

数据字段

遵循(Rajpurkar, Pranav 等人,2016)关于SQuAD v1数据集的规范(完整的参考资料请参见下文)。我们添加了一个字段“source”,用于标识上下文的来源。

示例

{
  "data": [
    {
      "paragraphs": [
        {
          "context": "Al cogote, y fumando como una cafetera. Ah!, no era él, éramos todos nosotros. Luego llegó Billie Holiday. Bajo el epígrafe Arte, la noche temática, pasaron la vida de la única cantante del universo que no es su voz, sino su alma lo que se escucha cuando interpreta. Gata golpeada por el mundo, pateada, violada, enganchada a todos los paraísos artificiales del planeta, jamás encontró el Edén. El Edén lo encontramos nosotros cuando, al concluir la sesión de la tele, pusimos en la doméstica cadena de sonido el mítico Last Recording, su última grabación (marzo de 1959), con la orquesta de Ray Ellis y el piano de Hank Jones. Se estaba muriendo Lady Day, y no obstante, mientras moría, su alma cantaba, Baby, won't you please come home. O sea, niño, criatura, amor, vuelve, a casa por favor.",
          "qas": [
            {
              "question": "¿Quién se incorporó a la reunión más adelante?",
              "id": "c5429572-64b8-4c5d-9553-826f867b07be",
              "answers": [
                {
                  "answer_start": 91,
                  "text": "Billie Holiday"
                }
              ]
            },
            
            ...
            
            ]
        }
      ],
      "title": "P_129_20010702_&_P_154_20010102_&_P_108_20000301_c_&_P_108_20000601_d",
      "source": "ancora"
    },
    ...
  ]
}

数据拆分

  • 训练集
  • 开发集
  • 测试集

内容分析

文章、段落和问题的数量

  • 文章数量:3,834
  • 上下文数量:6,247
  • 问题数量:18,817
  • 每个上下文的问题数量:3.01
  • 句子数量:48,026
  • 每个上下文的句子数量:7.70

词汇数量

  • 上下文中的总词汇数:1,561,616
  • 每个上下文的词汇数:250.30
  • 问题中的总词汇数:203,235
  • 每个问题的词汇数:10.80
  • 问题中的词汇数/上下文中的总词汇数:0.13
  • 答案中的总词汇数:90,307
  • 每个答案的词汇数:4.80
  • 答案中的词汇数/上下文中的总词汇数:0.06

词汇变化

问句中的46.38%的单词可以在上下文中找到。

问题类型

Question Count %
qué 6,381 33.91 %
quién/es 2,952 15.69 %
cuál/es 2,034 10.81 %
cómo 1,949 10.36 %
dónde 1,856 9.86 %
cuándo 1,639 8.71 %
cuánto 1,311 6.97 %
cuántos 495 2.63 %
adónde 100 0.53 %
cuánta 49 0.26 %
no question mark 43 0.23 %
cuántas 19 0.10 %

数据集创建

方法论

从下面描述的三个语料库中随机选择了6,247个上下文。我们委托为每个上下文创建了1至5个问题,遵循SQuAD 1.0的指南适应版 Rajpurkar, Pranav et al. “SQuAD: 100, 000+ Questions for Machine Comprehension of Text.” EMNLP (2016) 。总共创建了18,817个问题和包含答案的片段对。

策划理由

为了与其他语言的类似数据集兼容,我们尽量遵循现有的策划指南。我们还使用维基百科创建了另一个具有主题和文体多样性的问答数据集。

数据源

初始化数据收集和规范化

源数据是从西班牙语维基百科网站、维基新闻网站和AnCora语料库中获取的文章。

谁是源语言的制作者?

[需要更多信息]

注释

我们为每个上下文委托了1至5个问题的创建,遵循SQuAD 1.0的指南适应版 Rajpurkar, Pranav et al. “SQuAD: 100, 000+ Questions for Machine Comprehension of Text.” EMNLP (2016)

谁是标注者?

母语人士。

数据集策划者

Carlos Rodríguez和Carme Armentano,来自BSC-CNS。

个人和敏感信息

不包括个人或敏感信息。

使用数据的注意事项

数据集的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

联系方式

Carlos Rodríguez-Penagos或 Carme Armentano-Oller(bsc-temu@bsc.es)

资助

该工作得到了西班牙数字化和人工智能国务秘书办公室(SEDIA)在计划TL框架内的部分资助。

许可证

本作品根据 Attribution-ShareAlike 4.0 International License 许可证进行许可。