数据集:
reasoning_bg
任务:
问答子任务:
multiple-choice-qa语言:
bg计算机处理:
monolingual大小:
n<1K语言创建人:
found批注创建人:
found源数据集:
original预印本库:
arxiv:1908.01519许可:
apache-2.0最近,阅读理解模型在诸如 SQuAD、CoQA、MS Macro、RACE 等大规模数据集上达到了接近人类水平的表现。这主要是由于发布了可以用于目标任务微调的预训练上下文表示,比如 BERT 和 ELMo。尽管取得了这些进展并创建了更具挑战性的数据集,但大部分工作仍然是针对英语进行的。在这里,我们研究了在大规模英语数据集上微调的多语言 BERT 在保加利亚语多项选择阅读理解中的有效性(例如对于 RACE),并将其应用于保加利亚语。我们提出了一个新的数据集,其中包含来自各种科目(历史、生物、地理和哲学)的高中12年级的2,221个分析题,以及来自历史在线测验的412个额外的问题。尽管测验的作者没有提供相关的上下文,我们从维基百科中获取与每个答案选项的组合相匹配的文档,以提取相关知识。
[需要更多信息]
保加利亚语
一个典型的数据点包括问题句子、4个可能的选择答案和正确答案。
{ "id": "21181dda96414fd9b7a5e336ad84b45d", "qid": 1, "question": "!0<>AB>OB5;=> AJI5AB2C20I8 6828 A8AB5<8 A0:", "answers": [ "28@CA8B5", "BJ:0=8B5", "<8B>E>=4@88B5", "54=>:;5BJG=8B5 >@30=87<8" ], "correct": "54=>:;5BJG=8B5 >@30=87<8", "url": "http://zamatura.eu/files/dzi/biologiq/2010/matura-biologiq-2010.pdf" },
数据集涵盖以下领域
Domain | #QA-paris | #Choices | Len Question | Len Options | Vocab Size |
---|---|---|---|---|---|
12th Grade Matriculation Exam | |||||
Biology | 437 | 4 | 10.44 | 2.64 | 2,414 (12,922) |
Philosophy | 630 | 4 | 8.91 | 2.94 | 3,636 (20,392) |
Geography | 612 | 4 | 12.83 | 2.47 | 3,239 (17,668) |
History | 542 | 4 | 23.74 | 3.64 | 5,466 (20,456) |
Online History Quizzes | |||||
Bulgarian History | 229 | 4 | 14.05 | 2.80 | 2,287 (10,620) |
PzHistory | 183 | 3 | 38.89 | 2.44 | 1,261 (7,518) |
Total | 2,633 | 3.93 | 15.67 | 2.89 | 13,329 (56,104) |
该数据集是从高考和在线测验中策划而来的。这些问题涵盖了生物学、哲学、地理和历史等大量科学主题。
数据来自高考和在线测验。
谁是源语言的生产者?[需要更多信息]
[需要更多信息]
谁是注释者?[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
@article{hardalov2019beyond, title={Beyond english-only reading comprehension: Experiments in zero-shot multilingual transfer for bulgarian}, author={Hardalov, Momchil and Koychev, Ivan and Nakov, Preslav}, journal={arXiv preprint arXiv:1908.01519}, year={2019} }
感谢 @saradhix 添加了该数据集。