数据集:

fever

语言:

en

计算机处理:

monolingual

大小:

100K<n<1M

语言创建人:

found

批注创建人:

crowdsourced

源数据集:

extended|wikipedia
英文

"fever"数据集的数据卡片

数据集概述

互联网上有数十亿个网页,几乎涵盖了各种各样的话题,我们应该能够收集到几乎回答所有问题的事实。然而,只有少量这些信息包含在结构化的来源中(如Wikidata,Freebase等)-因此我们的能力受限于将自由形式的文本转化为结构化知识。然而,还有另一个问题成为了最近研究和媒体关注的焦点:来自不可靠来源的虚假信息。

FEVER研讨会是一个关于可验证知识提取的论坛,旨在推动这个方向的进展。

  • FEVER数据集:FEVER(事实提取和验证)由修改自维基百科的句子产生的185,445个声明组成,并在不了解这些句子来源的情况下进行验证。这些声明被分类为Support(支持)、Refute(驳斥)或NotEnoughInfo(信息不足)。对于前两类声明,标注员还记录了形成其判断所必需的句子。

  • FEVER 2.0对抗性攻击数据集:FEVER 2.0数据集由2019年共享任务的Breaker阶段参与者的提交的1174个声明创建。Breakers的任务是生成诱导现有系统分类错误的对抗性示例。Breakers提交了最多1000个实例的数据集,每个类别的实例数量相等(Support、Refute和NotEnoughInfo)。只考虑新颖的声明(即不包含在原始FEVER数据集中的声明)作为共享任务的有效条目。然后对提交的数据集进行手动评估,以确认其正确性(语法正确、标签恰当且符合FEVER注释指南的要求)。

支持的任务和排行榜

该任务是针对文本声明与文本来源进行验证。

与文本蕴涵(TE)/自然语言推理相比,关键区别在于在这些任务中,为每个声明提供了要验证的段落,并且近年来通常包含一个句子,而在验证系统中,它是从大量文档中获取的以形成证据。

语言

数据集为英文。

数据集结构

数据实例

v1.0
  • 下载的数据集文件大小:44.86 MB
  • 生成的数据集大小:40.05 MB
  • 总磁盘使用量:84.89 MB

'train'的一个示例如下所示。

'claim': 'Nikolaj Coster-Waldau worked with the Fox Broadcasting Company.',
 'evidence_wiki_url': 'Nikolaj_Coster-Waldau',
 'label': 'SUPPORTS',
 'id': 75397,
 'evidence_id': 104971,
 'evidence_sentence_id': 7,
 'evidence_annotation_id': 92206}
v2.0
  • 下载的数据集文件大小:0.39 MB
  • 生成的数据集大小:0.30 MB
  • 总磁盘使用量:0.70 MB

'validation'的一个示例如下所示。

{'claim': "There is a convicted statutory rapist called Chinatown's writer.",
  'evidence_wiki_url': '',
  'label': 'NOT ENOUGH INFO',
  'id': 500000,
  'evidence_id': -1,
  'evidence_sentence_id': -1,
  'evidence_annotation_id': 269158}
wiki_pages
  • 下载的数据集文件大小:1.71 GB
  • 生成的数据集大小:7.25 GB
  • 总磁盘使用量:8.97 GB

'wikipedia_pages'的一个示例如下所示。

{'text': 'The following are the football -LRB- soccer -RRB- events of the year 1928 throughout the world . ',
  'lines': '0\tThe following are the football -LRB- soccer -RRB- events of the year 1928 throughout the world .\n1\t',
  'id': '1928_in_association_football'}

数据字段

数据字段在所有拆分中都相同。

v1.0
  • id :一个int32类型的特征。
  • label :一个string类型的特征。
  • claim :一个string类型的特征。
  • evidence_annotation_id :一个int32类型的特征。
  • evidence_id :一个int32类型的特征。
  • evidence_wiki_url :一个string类型的特征。
  • evidence_sentence_id :一个int32类型的特征。
v2.0
  • id :一个int32类型的特征。
  • label :一个string类型的特征。
  • claim :一个string类型的特征。
  • evidence_annotation_id :一个int32类型的特征。
  • evidence_id :一个int32类型的特征。
  • evidence_wiki_url :一个string类型的特征。
  • evidence_sentence_id :一个int32类型的特征。
wiki_pages
  • id :一个string类型的特征。
  • text :一个string类型的特征。
  • lines :一个string类型的特征。

数据拆分

v1.0
train unlabelled_dev labelled_dev paper_dev unlabelled_test paper_test
v1.0 311431 19998 37566 18999 19998 18567
v2.0
validation
v2.0 2384
wiki_pages
wikipedia_pages
wiki_pages 5416537

数据集创建

策划理由

More Information Needed

源数据

初始数据收集和规范化

More Information Needed

源语言的生产者是谁?

More Information Needed

注释

注释过程

More Information Needed

注释者是谁?

More Information Needed

个人和敏感信息

More Information Needed

使用数据的注意事项

数据集的社会影响

More Information Needed

偏见讨论

More Information Needed

其他已知限制

More Information Needed

其他信息

数据集策划者

More Information Needed

许可信息

FEVER许可证:

These data annotations incorporate material from Wikipedia, which is licensed pursuant to the Wikipedia Copyright Policy. These annotations are made available under the license terms described on the applicable Wikipedia article pages, or, where Wikipedia license terms are unavailable, under the Creative Commons Attribution-ShareAlike License (version 3.0), available at http://creativecommons.org/licenses/by-sa/3.0/ (collectively, the “License Terms”). You may not use these files except in compliance with the applicable License Terms.

引用信息

如果使用“FEVER数据集”,请引用:

@inproceedings{Thorne18Fever,
    author = {Thorne, James and Vlachos, Andreas and Christodoulopoulos, Christos and Mittal, Arpit},
    title = {{FEVER}: a Large-scale Dataset for Fact Extraction and {VERification}},
    booktitle = {NAACL-HLT},
    year = {2018}
}

如果使用“FEVER 2.0对抗性攻击数据集”,请引用:

@inproceedings{Thorne19FEVER2,
    author = {Thorne, James and Vlachos, Andreas and Cocarascu, Oana and Christodoulopoulos, Christos and Mittal, Arpit},
    title = {The {FEVER2.0} Shared Task},
    booktitle = {Proceedings of the Second Workshop on {Fact Extraction and VERification (FEVER)}},
    year = {2018}
}

贡献

感谢 @thomwolf @lhoestq @mariamabarham @lewtun @albertvillanova 添加此数据集。