数据集:

BSC-LT/SQAC

任务:

问答

子任务:

extractive-qa

语言:

计算机处理:

monolingual

大小:

size_categories:unknown

语言创建人:

found

批注创建人:

expert-generated

源数据集:

original

预印本库:

arxiv:2107.07253 arxiv:1606.05250

许可:

cc-by-sa-4.0

数据集介绍文件清单

英文

⚠️注意⚠️：此模型已移至以下URL，不久将被删除： https://huggingface.co/datasets/PlanTL-GOB-ES/SQAC

SQAC（西班牙语问答语料库）：用于西班牙语的抽取式问答数据集

BibTeX引用

@article{DBLP:journals/corr/abs-2107-07253,
  author    = {Asier Guti{\'{e}}rrez{-}Fandi{\~{n}}o and
               Jordi Armengol{-}Estap{\'{e}} and
               Marc P{\`{a}}mies and
               Joan Llop{-}Palao and
               Joaqu{\'{\i}}n Silveira{-}Ocampo and
               Casimiro Pio Carrino and
               Aitor Gonzalez{-}Agirre and
               Carme Armentano{-}Oller and
               Carlos Rodr{\'{\i}}guez Penagos and
               Marta Villegas},
  title     = {Spanish Language Models},
  journal   = {CoRR},
  volume    = {abs/2107.07253},
  year      = {2021},
  url       = {https://arxiv.org/abs/2107.07253},
  archivePrefix = {arXiv},
  eprint    = {2107.07253},
  timestamp = {Wed, 21 Jul 2021 15:55:35 +0200},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2107-07253.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

有关详细信息，请参阅我们论文的预印版本： https://arxiv.org/abs/2107.07253

简介

该数据集包含6,247个上下文和18,817个问题及其答案，每个片段的答案数量为1至5个。

上下文的来源包括：

从 Wikipedia in Spanish 的百科全书文章摘录，根据 CC-by-sa licence 使用。
从 Wikinews in Spanish （根据 CC-by licence ）的新闻摘录。
来自 AnCora 的西班牙语语料库文本，该文本是来自不同新闻来源和文学来源的混合物，根据 CC-by licence 使用。

该数据集可用于构建抽取式问答。

支持的任务和排行榜

抽取式问答

语言

ES - 西班牙语

目录结构

README.md
dev.json
test.json
train.json
sqac.py

数据集结构

数据实例

JSON文件

数据字段

遵循(Rajpurkar, Pranav 等人，2016)关于SQuAD v1数据集的规范（完整的参考资料请参见下文）。我们添加了一个字段“source”，用于标识上下文的来源。

示例

{
  "data": [
    {
      "paragraphs": [
        {
          "context": "Al cogote, y fumando como una cafetera. Ah!, no era él, éramos todos nosotros. Luego llegó Billie Holiday. Bajo el epígrafe Arte, la noche temática, pasaron la vida de la única cantante del universo que no es su voz, sino su alma lo que se escucha cuando interpreta. Gata golpeada por el mundo, pateada, violada, enganchada a todos los paraísos artificiales del planeta, jamás encontró el Edén. El Edén lo encontramos nosotros cuando, al concluir la sesión de la tele, pusimos en la doméstica cadena de sonido el mítico Last Recording, su última grabación (marzo de 1959), con la orquesta de Ray Ellis y el piano de Hank Jones. Se estaba muriendo Lady Day, y no obstante, mientras moría, su alma cantaba, Baby, won't you please come home. O sea, niño, criatura, amor, vuelve, a casa por favor.",
          "qas": [
            {
              "question": "¿Quién se incorporó a la reunión más adelante?",
              "id": "c5429572-64b8-4c5d-9553-826f867b07be",
              "answers": [
                {
                  "answer_start": 91,
                  "text": "Billie Holiday"
                }
              ]
            },
            
            ...
            
            ]
        }
      ],
      "title": "P_129_20010702_&_P_154_20010102_&_P_108_20000301_c_&_P_108_20000601_d",
      "source": "ancora"
    },
    ...
  ]
}

数据拆分

训练集
开发集
测试集

内容分析

文章、段落和问题的数量

文章数量：3,834
上下文数量：6,247
问题数量：18,817
每个上下文的问题数量：3.01
句子数量：48,026
每个上下文的句子数量：7.70

词汇数量

上下文中的总词汇数：1,561,616
每个上下文的词汇数：250.30
问题中的总词汇数：203,235
每个问题的词汇数：10.80
问题中的词汇数/上下文中的总词汇数：0.13
答案中的总词汇数：90,307
每个答案的词汇数：4.80
答案中的词汇数/上下文中的总词汇数：0.06

词汇变化

问句中的46.38%的单词可以在上下文中找到。

问题类型

Question	Count	%
qué	6,381	33.91 %
quién/es	2,952	15.69 %
cuál/es	2,034	10.81 %
cómo	1,949	10.36 %
dónde	1,856	9.86 %
cuándo	1,639	8.71 %
cuánto	1,311	6.97 %
cuántos	495	2.63 %
adónde	100	0.53 %
cuánta	49	0.26 %
no question mark	43	0.23 %
cuántas	19	0.10 %

数据集创建

方法论

从下面描述的三个语料库中随机选择了6,247个上下文。我们委托为每个上下文创建了1至5个问题，遵循SQuAD 1.0的指南适应版 Rajpurkar, Pranav et al. “SQuAD: 100, 000+ Questions for Machine Comprehension of Text.” EMNLP (2016) 。总共创建了18,817个问题和包含答案的片段对。

策划理由

为了与其他语言的类似数据集兼容，我们尽量遵循现有的策划指南。我们还使用维基百科创建了另一个具有主题和文体多样性的问答数据集。

数据源

西班牙语维基百科： https://es.wikipedia.org
西班牙语维基新闻： https://es.wikinews.org/
AnCora语料库： http://clic.ub.edu/corpus/en

初始化数据收集和规范化

源数据是从西班牙语维基百科网站、维基新闻网站和AnCora语料库中获取的文章。

谁是源语言的制作者？

[需要更多信息]

注释

我们为每个上下文委托了1至5个问题的创建，遵循SQuAD 1.0的指南适应版 Rajpurkar, Pranav et al. “SQuAD: 100, 000+ Questions for Machine Comprehension of Text.” EMNLP (2016) 。

谁是标注者？

母语人士。

数据集策划者

Carlos Rodríguez和Carme Armentano，来自BSC-CNS。

个人和敏感信息

不包括个人或敏感信息。

使用数据的注意事项

数据集的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

联系方式

Carlos Rodríguez-Penagos或 Carme Armentano-Oller（bsc-temu@bsc.es）

资助

该工作得到了西班牙数字化和人工智能国务秘书办公室（SEDIA）在计划TL框架内的部分资助。

许可证

本作品根据 Attribution-ShareAlike 4.0 International License 许可证进行许可。

作者:

BSC-LT

数据集大小:

13.16 MB