数据集:

reasoning_bg

任务:

问答

语言:

bg

计算机处理:

monolingual

大小:

n<1K

语言创建人:

found

批注创建人:

found

源数据集:

original

预印本库:

arxiv:1908.01519

许可:

apache-2.0
英文

reasoning_bg 数据集卡片

数据集概述

最近,阅读理解模型在诸如 SQuAD、CoQA、MS Macro、RACE 等大规模数据集上达到了接近人类水平的表现。这主要是由于发布了可以用于目标任务微调的预训练上下文表示,比如 BERT 和 ELMo。尽管取得了这些进展并创建了更具挑战性的数据集,但大部分工作仍然是针对英语进行的。在这里,我们研究了在大规模英语数据集上微调的多语言 BERT 在保加利亚语多项选择阅读理解中的有效性(例如对于 RACE),并将其应用于保加利亚语。我们提出了一个新的数据集,其中包含来自各种科目(历史、生物、地理和哲学)的高中12年级的2,221个分析题,以及来自历史在线测验的412个额外的问题。尽管测验的作者没有提供相关的上下文,我们从维基百科中获取与每个答案选项的组合相匹配的文档,以提取相关知识。

支持的任务和排行榜

[需要更多信息]

语言

保加利亚语

数据集结构

数据实例

一个典型的数据点包括问题句子、4个可能的选择答案和正确答案。

          {
            "id": "21181dda96414fd9b7a5e336ad84b45d",
            "qid": 1,
            "question": "!0<>AB>OB5;=> AJI5AB2C20I8 6828 A8AB5<8 A0:",
            "answers": [
              "28@CA8B5",
              "BJ:0=8B5",
              "<8B>E>=4@88B5",
              "54=>:;5BJG=8B5 >@30=87<8"
            ],
            "correct": "54=>:;5BJG=8B5 >@30=87<8",
            "url": "http://zamatura.eu/files/dzi/biologiq/2010/matura-biologiq-2010.pdf"
          },

数据字段

  • url: 问题来源的URL字符串
  • id:每个示例的问题标识符字符串
  • qid:整数,显示特定URL中问题的序列
  • question:问题的标题
  • answers:每个答案的列表
  • correct:正确答案

数据划分

数据集涵盖以下领域

Domain #QA-paris #Choices Len Question Len Options Vocab Size
12th Grade Matriculation Exam
Biology 437 4 10.44 2.64 2,414 (12,922)
Philosophy 630 4 8.91 2.94 3,636 (20,392)
Geography 612 4 12.83 2.47 3,239 (17,668)
History 542 4 23.74 3.64 5,466 (20,456)
Online History Quizzes
Bulgarian History 229 4 14.05 2.80 2,287 (10,620)
PzHistory 183 3 38.89 2.44 1,261 (7,518)
Total 2,633 3.93 15.67 2.89 13,329 (56,104)

数据集创建

策划理由

该数据集是从高考和在线测验中策划而来的。这些问题涵盖了生物学、哲学、地理和历史等大量科学主题。

源数据

初始数据收集和标准化

数据来自高考和在线测验。

谁是源语言的生产者?

[需要更多信息]

注释

注释过程

[需要更多信息]

谁是注释者?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据集的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策划者

[需要更多信息]

许可信息

[需要更多信息]

引用信息

@article{hardalov2019beyond,
  title={Beyond english-only reading comprehension: Experiments in zero-shot multilingual transfer for bulgarian},
  author={Hardalov, Momchil and Koychev, Ivan and Nakov, Preslav},
  journal={arXiv preprint arXiv:1908.01519},
  year={2019}
}

贡献者

感谢 @saradhix 添加了该数据集。