数据集:

lmqg/qg_jaquad

英文

"lmqg/qg_jaquad" 数据集卡片

数据集摘要

这是 "Generative Language Models for Paragraph-Level Question Generation: A Unified Benchmark and Evaluation, EMNLP 2022 main conference" 中提出的统一的问题生成基准数据集的子集。这是为了问题生成(QG)任务而编译的 JaQuAD 数据集。原始数据的测试集未公开发布,因此我们从训练集中随机抽取了测试问题。在训练集、测试集和验证集的段落方面没有重叠。

支持的任务和排行榜

  • 问题生成:假设该数据集用于训练问题生成模型。该任务的成功通常通过达到较高的BLEU4/METEOR/ROUGE-L/BERTScore/MoverScore(详见我们的论文)进行衡量。

语言

日语(ja)

数据集结构

"train" 的示例如下所示。

{
  "question": "新型車両として6000系が構想されたのは、製造費用のほか、どんな費用を抑えるためだったの?",
  "paragraph": "三多摩地区開発による沿線人口の増加、相模原線延伸による多摩ニュータウン乗り入れ、都営地下鉄10号線(現都営地下鉄新宿線、以下新宿線と表記する)乗入構想により、京王線の利用客増加が見込まれ、相当数の車両を準備する必要に迫られるなか、製造費用、保守費用を抑えた新型車両として6000系が構想された。新宿線建設に際してはすでに1号線(後の浅草線)を1,435mm軌間で開業させていた東京都は京成電鉄と1号線との乗り入れにあたり京成電鉄の路線を1,372mmから1,435mmに改軌させた事例や、1,372mm軌間の特殊性から運輸省(当時、2001年から国土交通省)と共に京王にも改軌を求めたが、改軌工事中の輸送力確保が困難なことを理由に改軌しないことで決着している。",
  "answer": "保守費用",
  "sentence": "三多摩地区開発による沿線人口の増加、相模原線延伸による多摩ニュータウン乗り入れ、都営地下鉄10号線(現都営地下鉄新宿線、以下新宿線と表記する)乗入構想により、京王線の利用客増加が見込まれ、相当数の車両を準備する必要に迫られるなか、製造費用、保守費用を抑えた新型車両として6000系が構想された。",
  "paragraph_sentence": "<hl>三多摩地区開発による沿線人口の増加、相模原線延伸による多摩ニュータウン乗り入れ、都営地下鉄10号線(現都営地下鉄新宿線、以下新宿線と表記する)乗入構想により、京王線の利用客増加が見込まれ、相当数の車両を準備する必要に迫られるなか、製造費用、保守費用を抑えた新型車両として6000系が構想された。<hl>新宿線建設に際してはすでに1号線(後の浅草線)を1,435mm軌間で開業させていた東京都は京成電鉄と1号線との乗り入れにあたり京成電鉄の路線を1,372mmから1,435mmに改軌させた事例や、1,372mm軌間の特殊性から運輸省(当時、2001年から国土交通省)と共に京王にも改軌を求めたが、改軌工事中の輸送力確保が困難なことを理由に改軌しないことで決着している。",
  "paragraph_answer": "三多摩地区開発による沿線人口の増加、相模原線延伸による多摩ニュータウン乗り入れ、都営地下鉄10号線(現都営地下鉄新宿線、以下新宿線と表記する)乗入構想により、京王線の利用客増加が見込まれ、相当数の車両を準備する必要に迫られるなか、製造費用、<hl>保守費用<hl>を抑えた新型車両として6000系が構想された。新宿線建設に際してはすでに1号線(後の浅草線)を1,435mm軌間で開業させていた東京都は京成電鉄と1号線との乗り入れにあたり京成電鉄の路線を1,372mmから1,435mmに改軌させた事例や、1,372mm軌間の特殊性から運輸省(当時、2001年から国土交通省)と共に京王にも改軌を求めたが、改軌工事中の輸送力確保が困難なことを理由に改軌しないことで決着している。",
  "sentence_answer": "三多摩地区開発による沿線人口の増加、相模原線延伸による多摩ニュータウン乗り入れ、都営地下鉄10号線(現都営地下鉄新宿線、以下新宿線と表記する)乗入構想により、京王線の利用客増加が見込まれ、相当数の車両を準備する必要に迫られるなか、製造費用、<hl>保守費用<hl>を抑えた新型車両として6000系が構想された。"
}

所有拆分中的数据字段相同。

  • question:字符串特征。
  • paragraph:字符串特征。
  • answer:字符串特征。
  • sentence:字符串特征。
  • paragraph_answer:字符串特征,与段落相同,但答案由特殊标记 "" 高亮显示。
  • paragraph_sentence:字符串特征,与段落相同,但包含答案的句子由特殊标记 "" 高亮显示。
  • sentence_answer:字符串特征,与句子相同,但答案由特殊标记 "" 高亮显示。

假设分别使用 paragraph_answer、paragraph_sentence 和 sentence_answer 特征训练问题生成模型,但包含不同的信息。 paragraph_answer 和 sentence_answer 特征用于答案感知的问题生成,paragraph_sentence 特征用于句子感知的问题生成。

数据拆分

train validation test
27809 3939 3939

引用信息

@inproceedings{ushio-etal-2022-generative,
    title = "{G}enerative {L}anguage {M}odels for {P}aragraph-{L}evel {Q}uestion {G}eneration",
    author = "Ushio, Asahi  and
        Alva-Manchego, Fernando  and
        Camacho-Collados, Jose",
    booktitle = "Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing",
    month = dec,
    year = "2022",
    address = "Abu Dhabi, U.A.E.",
    publisher = "Association for Computational Linguistics",
}