英文

Roberta-base-Squad2-NQ

什么是SQuAD?

Stanford Question Answering Dataset (SQuAD) 是一个阅读理解数据集,由众包工作者在一组维基百科文章上提出问题,每个问题的答案都是相应阅读段落或问题可能无法回答的一部分文本片段。

SQuAD2.0将SQuAD1.1中的100,000个问题与超过50,000个不可回答的问题对抗性地写入,这些问题外观与可回答的问题类似。要在SQuAD2.0上表现良好,系统不仅必须在可能的情况下回答问题,还必须确定段落不支持任何答案并避免回答。

自然问题数据集

为了促进开放域问答的发展,我们创建了自然问题(NQ)语料库,并基于此数据创建了一个挑战性网站。NQ语料库包含来自真实用户的问题,它要求QA系统阅读和理解可能包含问题答案的整个维基百科文章。真实用户问题的包含以及解决方案需要阅读整个页面以查找答案的要求,使得NQ比以前的QA数据集更具现实和挑战性。

训练

首先,我们采用基本的roberta模型,在SQuQD 2.0数据集上进行了2个时期的训练,然后我们采用了NQ Small answer并进行了1个时期的训练。

总数据集大小:来自squadv2和NQ Small answer数据集的204,416个示例

评估

评估数据集:Squadv2开发集

  {'exact': 80.2998399730481,
   'f1': 83.4402145786235,
   'total': 11873,
   'HasAns_exact': 79.08232118758434,
   'HasAns_f1': 85.37207619635592,
   'HasAns_total': 5928,
   'NoAns_exact': 81.5138772077376,
   'NoAns_f1': 81.5138772077376,
   'NoAns_total': 5945,
   'best_exact': 80.2998399730481,
   'best_exact_thresh': 0.0,
   'best_f1': 83.44021457862335,
   'best_f1_thresh': 0.0}