数据集:

lmqg/qg_koquad

语言:

ko

计算机处理:

monolingual

大小:

10K<n<100K

源数据集:

squad_es

预印本库:

arxiv:2210.03992

许可:

cc-by-4.0
英文

"lmqg/qg_korquad"的数据集卡

数据集摘要

这是 "Generative Language Models for Paragraph-Level Question Generation: A Unified Benchmark and Evaluation, EMNLP 2022 main conference" 中提出的统一的问题生成基准数据集的一个子集。这是用于问题生成(QG)任务的 KorQuAD 的修改版本。由于原始数据集只包含训练/验证集,我们从训练集中手动抽样得到测试集,测试集与训练集在段落方面没有重叠。

支持的任务和排行榜

  • 问题生成:数据集被认为是用于训练问题生成模型的。通常通过达到高BLEU4/METEOR/ROUGE-L/BERTScore/MoverScore等指标来衡量该任务的成功(更详细信息请参阅我们的论文)。

语言

韩语(ko)

数据集结构

'train'的一个示例如下所示。

{
  "question": "함수해석학이 주목하는 탐구는?",
  "paragraph": "변화에 대한 이해와 묘사는 자연과학에 있어서 일반적인 주제이며, 미적분학은 변화를 탐구하는 강력한 도구로서 발전되었다. 함수는 변화하는 양을 묘사함에 있어서 중추적인 개념으로써 떠오르게 된다. 실수와 실변수로 구성된 함수의 엄밀한 탐구가 실해석학이라는 분야로 알려지게 되었고, 복소수에 대한 이와 같은 탐구분야는 복소해석학이라고 한다. 함수해석학은 함수의 공간(특히 무한차원)의 탐구에 주목한다. 함수해석학의 많은 응용분야 중 하나가 양자역학이다. 많은 문제들이 자연스럽게 양과 그 양의 변화율의 관계로 귀착되고, 이러한 문제들이 미분방정식으로 다루어진다. 자연의 많은 현상들이 동역학계로 기술될 수 있다. 혼돈 이론은 이러한 예측 불가능한 현상을 탐구하는 데 상당한 기여를 한다.",
  "answer": "함수의 공간(특히 무한차원)의 탐구",
  "sentence": "함수해석학은 함수의 공간(특히 무한차원)의 탐구 에 주목한다.",
  "paragraph_sentence": '변화에 대한 이해와 묘사는 자연과학에 있어서 일반적인 주제이며, 미적분학은 변화를 탐구하는 강력한 도구로서 발전되었다. 함수는 변화하는 양을 묘사함에 있어서 중추적인 개념으로써 떠오르게 된다. 실수와 실변수로 구성된 함수의 엄밀한 탐구가 실해석학이라는 분야로 알려지게 되었고, 복소수에 대한 이와 같은 탐구 분야는 복소해석학이라고 한다. <hl> 함수해석학은 함수의 공간(특히 무한차원)의 탐구 에 주목한다. <hl> 함수해석학의 많은 응용분야 중 하나가 양자역학이다. 많은 문제들이 자연스럽게 양과 그 양의 변화율의 관계로 귀착되고, 이러한 문제들이 미분방정식으로 다루어진다. 자연의 많은 현상들이 동역학계로 기술될 수 있다. 혼돈 이론은 이러한 예측 불가능한 현상을 탐구하는 데 상당한 기여를 한다.',
  "paragraph_answer": '변화에 대한 이해와 묘사는 자연과학에 있어서 일반적인 주제이며, 미적분학은 변화를 탐구하는 강력한 도구로서 발전되었다. 함수는 변화하는 양을 묘사함에 있어서 중추적인 개념으로써 떠오르게 된다. 실수와 실변수로 구성된 함수의 엄밀한 탐구가 실해석학이라는 분야로 알려지게 되었고, 복소수에 대한 이와 같은 탐구 분야는 복소해석학이라고 한다. 함수해석학은 <hl> 함수의 공간(특히 무한차원)의 탐구 <hl>에 주목한다. 함수해석학의 많은 응용분야 중 하나가 양자역학이다. 많은 문제들이 자연스럽게 양과 그 양의 변화율의 관계로 귀착되고, 이러한 문제들이 미분방정식으로 다루어진다. 자연의 많은 현상들이 동역학계로 기술될 수 있다. 혼돈 이론은 이러한 예측 불가능한 현상을 탐구하는 데 상당한 기여를 한다.',
  "sentence_answer": "함수해석학은 <hl> 함수의 공간(특히 무한차원)의 탐구 <hl> 에 주목한다."
}

所有拆分的数据字段都相同。

  • question: 字符串特征。
  • paragraph: 字符串特征。
  • answer: 字符串特征。
  • sentence: 字符串特征。
  • paragraph_answer: 字符串特征,与段落相同,但答案用特殊标记<hl>突出显示。
  • paragraph_sentence: 字符串特征,与段落相同,但包含答案的句子用特殊标记<hl>突出显示。
  • sentence_answer: 字符串特征,与句子相同,但答案用特殊标记<hl>突出显示。

假设 paragraph_answer、paragraph_sentence 和 sentence_answer 特征分别用于训练问题生成模型,但包含不同的信息。 paragraph_answer 和 sentence_answer 特征用于答案感知问题生成,paragraph_sentence 特征用于句子感知问题生成。

数据拆分

train validation test
54556 5766 5766

引用信息

@inproceedings{ushio-etal-2022-generative,
    title = "{G}enerative {L}anguage {M}odels for {P}aragraph-{L}evel {Q}uestion {G}eneration: {A} {U}nified {B}enchmark and {E}valuation",
    author = "Ushio, Asahi  and
        Alva-Manchego, Fernando  and
        Camacho-Collados, Jose",
    booktitle = "Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing",
    month = dec,
    year = "2022",
    address = "Abu Dhabi, U.A.E.",
    publisher = "Association for Computational Linguistics",
}