英文

数据集卡片:ClimateFever

数据集概要

这是一个采用FEVER方法的数据集,其中包含了1,535个关于气候变化的真实主张,这些主张来自于互联网。每个主张都附带有五个手动注释的来自英文维基百科的证据句子,这些句子支持、反驳或者没有足够的信息来验证主张,共计包含7,675个主张-证据对。该数据集包含了涉及多个方面的具有挑战性的主张,以及同时存在支持和反驳证据的争议性主张。

支持的任务和竞赛排行榜

[需要更多信息]

语言

数据集中的文本为英文,源自互联网上关于气候变化的真实主张。相关的BCP-47代码是"en"。

数据集结构

数据实例

{
  "claim_id": "0",
  "claim": "Global warming is driving polar bears toward extinction",
  "claim_label": 0,  # "SUPPORTS"
  "evidences": [
    {
     "evidence_id": "Extinction risk from global warming:170",
     "evidence_label": 2,  # "NOT_ENOUGH_INFO"
     "article": "Extinction risk from global warming",
     "evidence": "\"Recent Research Shows Human Activity Driving Earth Towards Global Extinction Event\".",
     "entropy": 0.6931471805599453,
     "votes": [
      "SUPPORTS",
      "NOT_ENOUGH_INFO",
      null,
      null,
      null
     ]
    },
    {
     "evidence_id": "Global warming:14",
     "evidence_label": 0,  # "SUPPORTS"
     "article": "Global warming",
     "evidence": "Environmental impacts include the extinction or relocation of many species as their ecosystems change, most immediately the environments of coral reefs, mountains, and the Arctic.",
     "entropy": 0.0,
     "votes": [
      "SUPPORTS",
      "SUPPORTS",
      null,
      null,
      null
     ]
    },
    {
     "evidence_id": "Global warming:178",
     "evidence_label": 2,  # "NOT_ENOUGH_INFO"
     "article": "Global warming",
     "evidence": "Rising temperatures push bees to their physiological limits, and could cause the extinction of bee populations.",
     "entropy": 0.6931471805599453,
     "votes": [
      "SUPPORTS",
      "NOT_ENOUGH_INFO",
      null,
      null,
      null
     ]
    },
    {
     "evidence_id": "Habitat destruction:61",
     "evidence_label": 0,  # "SUPPORTS"
     "article": "Habitat destruction",
     "evidence": "Rising global temperatures, caused by the greenhouse effect, contribute to habitat destruction, endangering various species, such as the polar bear.",
     "entropy": 0.0,
     "votes": [
      "SUPPORTS",
      "SUPPORTS",
      null,
      null,
      null
     ]
    },
    {
     "evidence_id": "Polar bear:1328",
     "evidence_label": 2,  # "NOT_ENOUGH_INFO"
     "article": "Polar bear",
     "evidence": "\"Bear hunting caught in global warming debate\".",
     "entropy": 0.6931471805599453,
     "votes": [
      "SUPPORTS",
      "NOT_ENOUGH_INFO",
      null,
      null,
      null
     ]
    }
  ]
}

数据字段

  • claim_id: 一个字符串特征,唯一的主张标识符。
  • claim: 一个字符串特征,主张文本。
  • claim_label: 一个整型特征,对主张的整体标签(基于证据的多数投票)。标签对应0: "支持",1: "反驳",2: "没有足够信息"和3: "有争议"。
  • evidences: 一个包含以下字段的证据列表:
  • evidence_id: 一个字符串特征,唯一的证据标识符。
  • evidence_label: 一个整型特征,微观判断标签。标签对应0: "支持",1: "反驳"和2: "没有足够信息"。
  • article: 一个字符串特征,来源文章的标题(维基百科页面)。
  • evidence: 一个字符串特征,证据句子。
  • entropy: 一个float32特征,反映evidence_label的不确定性。
  • votes: 一个字符串特征的列表,与个体投票相对应。

数据拆分

这个基准数据集目前只包含了一个数据拆分测试,包括1,535个主张或7,675个主张-证据对。

数据集创建

策划理由

[需要更多信息]

数据源

数据收集和规范化

[需要更多信息]

数据源语言的生产者是谁?

[需要更多信息]

注释

注释过程

[需要更多信息]

注释者是谁?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据时的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策划者

[需要更多信息]

许可信息

[需要更多信息]

引用信息

@misc{diggelmann2020climatefever,
      title={CLIMATE-FEVER: A Dataset for Verification of Real-World Climate Claims},
      author={Thomas Diggelmann and Jordan Boyd-Graber and Jannis Bulian and Massimiliano Ciaramita and Markus Leippold},
      year={2020},
      eprint={2012.00614},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

贡献者

感谢 @tdiggelm 添加了这个数据集。