数据集:

sberquad

任务:

问答

子任务:

extractive-qa

语言:

ru

计算机处理:

monolingual

大小:

10K<n<100K

语言创建人:

found crowdsourced

批注创建人:

crowdsourced

源数据集:

original

预印本库:

arxiv:1912.09723
英文

sberquad 数据集卡片

数据集概述

Sber 问答数据集(SberQuAD)是一个阅读理解数据集,由众包工作者在一组维基百科文章上提出问题,每个问题的答案是相应阅读段落中的一段文本或片段,或者问题可能无法回答。俄语原始模型在2017年的 Sberbank 数据科学之旅中呈现。

支持的任务和排行榜

[需要更多信息]

语言

俄语

数据集结构

数据实例

{
    "context": "Первые упоминания о строении человеческого тела встречаются в Древнем Египте...",
    "id": 14754,
    "qas": [
        {
            "id": 60544,
            "question": "Где встречаются первые упоминания о строении человеческого тела?",
            "answers": [{"answer_start": 60, "text": "в Древнем Египте"}],
        }
    ]
}

数据字段

  • id:一个 int32 特征
  • 标题:一个字符串特征
  • 上下文:一个字符串特征
  • 问题:一个字符串特征
  • 答案:一个包含的字典特征:
    • 文本:一个字符串特征
    • 答案开始位置:一个 int32 特征

数据拆分

name train validation test
plain_text 45328 5036 23936

数据集创建

策划理由

[需要更多信息]

源数据

初始数据收集和规范化

[需要更多信息]

源语言生产者是谁?

[需要更多信息]

注解

注解过程

[需要更多信息]

注释者是谁?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据集的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集策划者

[需要更多信息]

许可信息

[需要更多信息]

引用信息

@InProceedings{sberquad,
doi       = {10.1007/978-3-030-58219-7_1},
author    = {Pavel Efimov and
             Andrey Chertok and
             Leonid Boytsov and
             Pavel Braslavski},
title     = {SberQuAD -- Russian Reading Comprehension Dataset: Description and Analysis},
booktitle = {Experimental IR Meets Multilinguality, Multimodality, and Interaction},
year      = {2020},
publisher = {Springer International Publishing},
pages     = {3--15}
}

贡献

感谢 @alenusch 添加此数据集。