数据集:

allenai/scifact

子任务:

fact-checking

语言:

en

计算机处理:

monolingual

大小:

1K<n<10K

语言创建人:

found

批注创建人:

expert-generated

源数据集:

original
英文

数据集卡片:《scifact》

数据集概述

SciFact是一个包含1.4K条专家编写的科学论断和包含证据的摘要的数据集,并且标注了标签和解释。

支持的任务和排行榜

More Information Needed

语言

More Information Needed

数据集结构

数据实例

论断
  • 下载的数据集文件大小:2.72 MB
  • 生成的数据集大小:0.25 MB
  • 使用的总磁盘空间:2.97 MB

'验证'的示例如下所示。

{
    "cited_doc_ids": [14717500],
    "claim": "1,000 genomes project enables mapping of genetic sequence variation consisting of rare variants with larger penetrance effects than common variants.",
    "evidence_doc_id": "14717500",
    "evidence_label": "SUPPORT",
    "evidence_sentences": [2, 5],
    "id": 3
}
语料库
  • 下载的数据集文件大小:2.72 MB
  • 生成的数据集大小:7.63 MB
  • 使用的总磁盘空间:10.35 MB

'训练'的示例如下所示。

This example was too long and was cropped:

{
    "abstract": "[\"Alterations of the architecture of cerebral white matter in the developing human brain can affect cortical development and res...",
    "doc_id": 4983,
    "structured": false,
    "title": "Microstructural development of human newborn cerebral white matter assessed in vivo by diffusion tensor magnetic resonance imaging."
}

数据字段

数据字段在所有拆分中相同。

论断
  • id : 一个 int32 特征。
  • claim : 一个字符串特征。
  • evidence_doc_id : 一个字符串特征。
  • evidence_label : 一个字符串特征。
  • evidence_sentences : 一个 int32 特征列表。
  • cited_doc_ids : 一个 int32 特征列表。
语料库
  • doc_id : 一个 int32 特征。
  • title : 一个字符串特征。
  • abstract : 一个字符串特征列表。
  • structured : 一个布尔特征。

数据拆分

论断
train validation test
claims 1261 450 300
语料库
train
corpus 5183

数据集创建

策展理由

More Information Needed

源数据

初始数据收集和规范化

More Information Needed

谁是源语言生产者?

More Information Needed

注释

注释过程

More Information Needed

谁是注释者?

More Information Needed

个人和敏感信息

More Information Needed

使用数据的注意事项

数据集的社会影响

More Information Needed

偏见讨论

More Information Needed

其他已知限制

More Information Needed

额外信息

数据集策展人

More Information Needed

许可信息

https://github.com/allenai/scifact/blob/master/LICENSE.md

SciFact数据集在 CC BY-NC 2.0 下发布。使用SciFact数据,即表示同意其使用条款。

引用信息

@inproceedings{wadden-etal-2020-fact,
    title = "Fact or Fiction: Verifying Scientific Claims",
    author = "Wadden, David  and
      Lin, Shanchuan  and
      Lo, Kyle  and
      Wang, Lucy Lu  and
      van Zuylen, Madeleine  and
      Cohan, Arman  and
      Hajishirzi, Hannaneh",
    booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP)",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.emnlp-main.609",
    doi = "10.18653/v1/2020.emnlp-main.609",
    pages = "7534--7550",
}

贡献

感谢 @thomwolf @lhoestq @dwadden @patrickvonplaten @mariamabarham @lewtun 添加此数据集。