数据集:

lmqg/qg_tweetqa

语言:

en

计算机处理:

monolingual

大小:

1K<n<10K

源数据集:

tweet_qa

预印本库:

arxiv:2210.03992
英文

"lmqg/qg_tweetqa" 数据集卡片

数据集摘要

这是基于 tweet_qa 构建的问题和答案生成数据集。原始数据的测试集未公开发布,因此我们从训练集中随机抽取了测试问题。

支持的任务和排行榜

  • 问答生成:假定该数据集用于训练问题和答案生成模型。成功的标准通常是实现高BLEU4/METEOR/ROUGE-L/BERTScore/MoverScore(详细信息请参阅我们的论文)。

语言

英语(en)

数据集结构

'train'的一个示例如下。

{
  'answer': 'vine',
  'paragraph_question': 'question: what site does the link take you to?, context:5 years in 5 seconds. Darren Booth (@darbooth) January 25, 2013',
  'question': 'what site does the link take you to?',
  'paragraph': '5 years in 5 seconds. Darren Booth (@darbooth) January 25, 2013'
}

所有拆分的数据字段都相同。

  • questions:一个字符串特征列表。
  • answers:一个字符串特征列表。
  • paragraph:一个字符串特征。
  • question_answer:一个字符串特征。

数据拆分

train validation test
9489 1086 1203

引用信息

@inproceedings{ushio-etal-2022-generative,
    title = "{G}enerative {L}anguage {M}odels for {P}aragraph-{L}evel {Q}uestion {G}eneration",
    author = "Ushio, Asahi  and
        Alva-Manchego, Fernando  and
        Camacho-Collados, Jose",
    booktitle = "Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing",
    month = dec,
    year = "2022",
    address = "Abu Dhabi, U.A.E.",
    publisher = "Association for Computational Linguistics",
}