数据集:
allenai/qasper
任务:
问答子任务:
closed-domain-qa语言:
en计算机处理:
monolingual大小:
10K<n<100K语言创建人:
expert-generated批注创建人:
expert-generated源数据集:
extended|s2orc预印本库:
arxiv:2105.03011许可:
cc-by-4.0QASPER是一个用于科学研究论文问答的数据集。它包含1,585篇自然语言处理论文上的5,049个问题。每个问题是由一位仅阅读相应论文标题和摘要的NLP从业者撰写的,该问题对应的信息可以在全文中找到。这些问题由另一组NLP从业者回答,并提供支持性证据。
问答:该数据集可用于训练问答模型。通常通过取得高F1值来评估该任务的成功。目前,排行榜上的模型达到33.63的Token F1得分,并使用某些特定方法。排行榜信息可以在这里找到。
证据选择:该数据集可用于训练证据选择模型。通常通过取得高F1值来评估该任务的成功。目前,排行榜上的模型达到39.37的F1得分,并使用某些特定方法。排行榜信息可以在这里找到。
英语,用于研究论文。
数据集中的典型实例:
{ 'id': "Paper ID (string)", 'title': "Paper Title", 'abstract': "paper abstract ...", 'full_text': { 'paragraphs':[["section1_paragraph1_text","section1_paragraph2_text",...],["section2_paragraph1_text","section2_paragraph2_text",...]], 'section_name':["section1_title","section2_title"],...}, 'qas': { 'answers':[{ 'annotation_id': ["q1_answer1_annotation_id","q1_answer2_annotation_id"] 'answer': [{ 'unanswerable':False, 'extractive_spans':["q1_answer1_extractive_span1","q1_answer1_extractive_span2"], 'yes_no':False, 'free_form_answer':"q1_answer1", 'evidence':["q1_answer1_evidence1","q1_answer1_evidence2",..], 'highlighted_evidence':["q1_answer1_highlighted_evidence1","q1_answer1_highlighted_evidence2",..] }, { 'unanswerable':False, 'extractive_spans':["q1_answer2_extractive_span1","q1_answer2_extractive_span2"], 'yes_no':False, 'free_form_answer':"q1_answer2", 'evidence':["q1_answer2_evidence1","q1_answer2_evidence2",..], 'highlighted_evidence':["q1_answer2_highlighted_evidence1","q1_answer2_highlighted_evidence2",..] }], 'worker_id':["q1_answer1_worker_id","q1_answer2_worker_id"] },{...["question2's answers"]..},{...["question3's answers"]..}], 'question':["question1","question2","question3"...], 'question_id':["question1_id","question2_id","question3_id"...], 'question_writer':["question1_writer_id","question2_writer_id","question3_writer_id"...], 'nlp_background':["question1_writer_nlp_background","question2_writer_nlp_background",...], 'topic_background':["question1_writer_topic_background","question2_writer_topic_background",...], 'paper_read': ["question1_writer_paper_read_status","question2_writer_paper_read_status",...], 'search_query':["question1_search_query","question2_search_query","question3_search_query"...], } }
以下是数据集README中的摘录:
对于问题的特定字段:
“nlp_background”显示问题撰写者的经验。值可以是“zero”(无经验)、“two”(0-2年经验)、“five”(2-5年经验)和“infinity”(>5年经验)。该字段也可能为空,表示撰写者选择不分享此信息。
“topic_background”显示问题撰写者对论文主题的熟悉程度。值可以是“unfamiliar”(不熟悉)、“familiar”(熟悉)、“research”(表示主题是撰写者的研究领域)或null。
“paper_read”字段(可选)显示问题撰写者是否阅读了论文。
如果“search_query”不为空,则是问题撰写者用于从一组提供给他们的摘要中搜索论文摘要的查询。
无法回答的答案中,“unanswerable”字段设置为true。其余答案中有且只有以下字段之一为非空。
“evidence”是用于得出答案的段落、图表或表格的集合。表格或图表以字符串“FLOAT SELECTED”开头。
如果提供者选择了文本证据,“highlighted_evidence”是提供者选择的作为证据的句子集合。在“evidence”字段中的文本是这些句子与段落级别之间的映射。也就是说,如果在“evidence”字段中看到文本证据,则它肯定是完整的段落,而在“highlighted_evidence”中不一定是完整的段落。
Train | Valid | |
---|---|---|
Number of papers | 888 | 281 |
Number of questions | 2593 | 1005 |
Number of answers | 2675 | 1764 |
[需要更多信息]
NLP论文:完整的论文文本提取自 S2ORC (Lo等,2020)
初始数据收集和规范化:
[需要更多信息]
谁是源语言生成者?[需要更多信息]
[需要更多信息]
注释过程[需要更多信息]
谁是注释者?"注释者是NLP从业者,而不是专家研究人员,专家可能会得分更高"
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
众包的NLP从业者
@inproceedings{Dasigi2021ADO, title={A Dataset of Information-Seeking Questions and Answers Anchored in Research Papers}, author={Pradeep Dasigi and Kyle Lo and Iz Beltagy and Arman Cohan and Noah A. Smith and Matt Gardner}, year={2021} }
感谢 @cceyda 添加此数据集。