数据集:
lmqg/qg_dequad
任务:
文本生成子任务:
language-modeling语言:
de计算机处理:
monolingual大小:
10K<n<100K源数据集:
deepset/germanquad预印本库:
arxiv:2210.03992许可:
cc-by-4.0这是一个来自统一的问题生成基准数据集 QG-Bench 的子集。它是用于问题生成(QG)任务的 GermanQuAD 的修改版本。由于原始数据集只包含训练/验证集,我们从训练集中手动采样了测试集,测试集与训练集在段落上没有重叠。
西班牙语(es)
"train" 的示例如下所示。
{ 'answer': 'elektromagnetischer Linearführungen', 'question': 'Was kann den Verschleiß des seillosen Aufzuges minimieren?', 'sentence': 'Im Rahmen der Forschungen an dem seillosen Aufzug wird ebenfalls an der Entwicklung elektromagnetischer Linearführungen gearbeitet, um den Verschleiß der seillosen Aufzugsanlage bei hohem Fahrkomfort zu minimieren.', 'paragraph': "Aufzugsanlage\n\n=== Seilloser Aufzug ===\nAn der RWTH Aachen im Institut für Elektrische Maschinen wurde ein seilloser Aufzug entwickelt und ein Prototyp aufgebaut. Die Kabine wird hierbei durch z..." 'sentence_answer': "Im Rahmen der Forschungen an dem seillosen Aufzug wird ebenfalls an der Entwicklung <hl> elektromagnetischer Linearführungen <hl> gearbeitet, um den Verschleiß der seillosen Aufzugsanlage bei...", 'paragraph_answer': "Aufzugsanlage === Seilloser Aufzug === An der RWTH Aachen im Institut für Elektrische Maschinen wurde ein seilloser Aufzug entwickelt und ein Prototyp aufgebaut. Die Kabine wird hierbei durc...", 'paragraph_sentence': "Aufzugsanlage === Seilloser Aufzug === An der RWTH Aachen im Institut für Elektrische Maschinen wurde ein seilloser Aufzug entwickelt und ein Prototyp aufgebaut. Die Kabine wird hierbei du..." }
所有拆分的数据字段相同。
每个段落回答、段落句子和句子回答特征都被假设用于训练问题生成模型,但包含不同的信息。段落回答和句子回答特征用于基于答案的问题生成,段落句子特征用于基于句子的问题生成。
train | validation | test |
---|---|---|
9314 | 2204 | 2204 |
@inproceedings{ushio-etal-2022-generative, title = "{G}enerative {L}anguage {M}odels for {P}aragraph-{L}evel {Q}uestion {G}eneration", author = "Ushio, Asahi and Alva-Manchego, Fernando and Camacho-Collados, Jose", booktitle = "Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing", month = dec, year = "2022", address = "Abu Dhabi, U.A.E.", publisher = "Association for Computational Linguistics", }