数据集:

lmqg/qg_dequad

语言:

de

计算机处理:

monolingual

大小:

10K<n<100K

源数据集:

deepset/germanquad

预印本库:

arxiv:2210.03992

许可:

cc-by-4.0
英文

"lmqg/qg_dequad" 的数据集卡片

数据集摘要

这是一个来自统一的问题生成基准数据集 QG-Bench 的子集。它是用于问题生成(QG)任务的 GermanQuAD 的修改版本。由于原始数据集只包含训练/验证集,我们从训练集中手动采样了测试集,测试集与训练集在段落上没有重叠。

支持的任务和排行榜

  • question-generation: 数据集被假设用于训练问题生成模型。成功完成此任务通常是通过获取高的BLEU4/METEOR/ROUGE-L/BERTScore/MoverScore(详见我们的论文)来衡量的。

语言

西班牙语(es)

数据集结构

"train" 的示例如下所示。

{
  'answer': 'elektromagnetischer Linearführungen',                                                                                                                                                                   
  'question': 'Was kann den Verschleiß des seillosen Aufzuges minimieren?',                                                                                                                                          
  'sentence': 'Im Rahmen der Forschungen an dem seillosen Aufzug wird ebenfalls an der Entwicklung elektromagnetischer Linearführungen gearbeitet, um den Verschleiß der seillosen Aufzugsanlage bei hohem Fahrkomfort zu minimieren.',                                   
  'paragraph': "Aufzugsanlage\n\n=== Seilloser Aufzug ===\nAn der RWTH Aachen im Institut für Elektrische Maschinen wurde ein seilloser Aufzug entwickelt und ein Prototyp aufgebaut. Die Kabine wird hierbei durch z..."
  'sentence_answer': "Im Rahmen der Forschungen an dem seillosen Aufzug wird ebenfalls an der Entwicklung <hl> elektromagnetischer Linearführungen <hl> gearbeitet, um den Verschleiß der seillosen Aufzugsanlage bei...",                  
  'paragraph_answer': "Aufzugsanlage === Seilloser Aufzug === An der RWTH Aachen im Institut für Elektrische Maschinen wurde ein seilloser Aufzug entwickelt und ein Prototyp aufgebaut. Die Kabine wird hierbei durc...",
  'paragraph_sentence': "Aufzugsanlage === Seilloser Aufzug === An der RWTH Aachen im Institut für Elektrische Maschinen wurde ein seilloser Aufzug entwickelt und ein Prototyp aufgebaut. Die Kabine wird hierbei du..."  
}

数据字段

所有拆分的数据字段相同。

  • question:字符串特征。
  • paragraph:字符串特征。
  • answer:字符串特征。
  • sentence:字符串特征。
  • paragraph_answer:字符串特征,与段落相同,但答案由特殊标记<hl>突出显示。
  • paragraph_sentence:字符串特征,与段落相同,但包含答案的句子由特殊标记<hl>突出显示。
  • sentence_answer:字符串特征,与句子相同,但答案由特殊标记<hl>突出显示。

每个段落回答、段落句子和句子回答特征都被假设用于训练问题生成模型,但包含不同的信息。段落回答和句子回答特征用于基于答案的问题生成,段落句子特征用于基于句子的问题生成。

数据拆分

train validation test
9314 2204 2204

引用信息

@inproceedings{ushio-etal-2022-generative,
    title = "{G}enerative {L}anguage {M}odels for {P}aragraph-{L}evel {Q}uestion {G}eneration",
    author = "Ushio, Asahi  and
        Alva-Manchego, Fernando  and
        Camacho-Collados, Jose",
    booktitle = "Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing",
    month = dec,
    year = "2022",
    address = "Abu Dhabi, U.A.E.",
    publisher = "Association for Computational Linguistics",
}