数据集:

allenai/qasper

任务:

问答

子任务:

closed-domain-qa

语言:

计算机处理:

monolingual

大小:

10K<n<100K

语言创建人:

expert-generated

批注创建人:

expert-generated

源数据集:

extended|s2orc

预印本库:

arxiv:2105.03011

许可:

cc-by-4.0

数据集介绍文件清单

英文

Qasper数据集概览

数据集简介

QASPER是一个用于科学研究论文问答的数据集。它包含1,585篇自然语言处理论文上的5,049个问题。每个问题是由一位仅阅读相应论文标题和摘要的NLP从业者撰写的，该问题对应的信息可以在全文中找到。这些问题由另一组NLP从业者回答，并提供支持性证据。

支持的任务和排行榜

问答：该数据集可用于训练问答模型。通常通过取得高F1值来评估该任务的成功。目前，排行榜上的模型达到33.63的Token F1得分，并使用某些特定方法。排行榜信息可以在这里找到。
证据选择：该数据集可用于训练证据选择模型。通常通过取得高F1值来评估该任务的成功。目前，排行榜上的模型达到39.37的F1得分，并使用某些特定方法。排行榜信息可以在这里找到。

语言

英语，用于研究论文。

数据集结构

数据实例

数据集中的典型实例：

{
  'id': "Paper ID (string)",
  'title': "Paper Title",
  'abstract': "paper abstract ...",
  'full_text': {
      'paragraphs':[["section1_paragraph1_text","section1_paragraph2_text",...],["section2_paragraph1_text","section2_paragraph2_text",...]],
      'section_name':["section1_title","section2_title"],...},
  'qas': {
  'answers':[{
      'annotation_id': ["q1_answer1_annotation_id","q1_answer2_annotation_id"]
      'answer': [{
          'unanswerable':False,
          'extractive_spans':["q1_answer1_extractive_span1","q1_answer1_extractive_span2"],
          'yes_no':False,
          'free_form_answer':"q1_answer1",
          'evidence':["q1_answer1_evidence1","q1_answer1_evidence2",..],
          'highlighted_evidence':["q1_answer1_highlighted_evidence1","q1_answer1_highlighted_evidence2",..]
          },
          {
          'unanswerable':False,
          'extractive_spans':["q1_answer2_extractive_span1","q1_answer2_extractive_span2"],
          'yes_no':False,
          'free_form_answer':"q1_answer2",
          'evidence':["q1_answer2_evidence1","q1_answer2_evidence2",..],
          'highlighted_evidence':["q1_answer2_highlighted_evidence1","q1_answer2_highlighted_evidence2",..]
          }],
      'worker_id':["q1_answer1_worker_id","q1_answer2_worker_id"]
      },{...["question2's answers"]..},{...["question3's answers"]..}],
  'question':["question1","question2","question3"...],
  'question_id':["question1_id","question2_id","question3_id"...],
  'question_writer':["question1_writer_id","question2_writer_id","question3_writer_id"...],
  'nlp_background':["question1_writer_nlp_background","question2_writer_nlp_background",...],
  'topic_background':["question1_writer_topic_background","question2_writer_topic_background",...],
  'paper_read': ["question1_writer_paper_read_status","question2_writer_paper_read_status",...],
  'search_query':["question1_search_query","question2_search_query","question3_search_query"...],
  }
}

数据字段

以下是数据集README中的摘录：

对于问题的特定字段：

“nlp_background”显示问题撰写者的经验。值可以是“zero”（无经验）、“two”（0-2年经验）、“five”（2-5年经验）和“infinity”（>5年经验）。该字段也可能为空，表示撰写者选择不分享此信息。
“topic_background”显示问题撰写者对论文主题的熟悉程度。值可以是“unfamiliar”（不熟悉）、“familiar”（熟悉）、“research”（表示主题是撰写者的研究领域）或null。
“paper_read”字段（可选）显示问题撰写者是否阅读了论文。
如果“search_query”不为空，则是问题撰写者用于从一组提供给他们的摘要中搜索论文摘要的查询。

答案的特定字段

无法回答的答案中，“unanswerable”字段设置为true。其余答案中有且只有以下字段之一为非空。

“extractive_spans”是论文中作为答案的片段。
“free_form_answer”是书面的答案。
如果答案是Yes，则“yes_no”为true；如果答案是No，则“yes_no”为false。

“evidence”是用于得出答案的段落、图表或表格的集合。表格或图表以字符串“FLOAT SELECTED”开头。

如果提供者选择了文本证据，“highlighted_evidence”是提供者选择的作为证据的句子集合。在“evidence”字段中的文本是这些句子与段落级别之间的映射。也就是说，如果在“evidence”字段中看到文本证据，则它肯定是完整的段落，而在“highlighted_evidence”中不一定是完整的段落。

数据拆分

Train	Valid
Number of papers	888	281
Number of questions	2593	1005
Number of answers	2675	1764

数据集创建

管理理由

[需要更多信息]

来源数据

NLP论文：完整的论文文本提取自 S2ORC （Lo等，2020）

初始数据收集和规范化：

[需要更多信息]

谁是源语言生成者？

[需要更多信息]

注释

[需要更多信息]

注释过程

[需要更多信息]

谁是注释者？

"注释者是NLP从业者，而不是专家研究人员，专家可能会得分更高"

个人和敏感信息

[需要更多信息]

使用数据时的注意事项

数据集的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集创建者

众包的NLP从业者

许可信息

CC BY 4.0

引用信息

@inproceedings{Dasigi2021ADO,
  title={A Dataset of Information-Seeking Questions and Answers Anchored in Research Papers},
  author={Pradeep Dasigi and Kyle Lo and Iz Beltagy and Arman Cohan and Noah A. Smith and Matt Gardner},
  year={2021}
}

贡献

感谢 @cceyda 添加此数据集。

作者:

allenai

数据集大小:

39.04 KB