英文

multiFC

数据集内容

  • 重要提示:测试集中的标签列有虚假值,因为这些值未提供(请参阅原始自述文件中的说明)
DatasetDict({
    train: Dataset({
        features: ['claimID', 'claim', 'label', 'claimURL', 'reason', 'categories', 'speaker', 'checker', 'tags', 'article title', 'publish date', 'climate', 'entities'],
        num_rows: 27871
    })
    test: Dataset({
        features: ['claimID', 'claim', 'label', 'claimURL', 'reason', 'categories', 'speaker', 'checker', 'tags', 'article title', 'publish date', 'climate', 'entities'],
        num_rows: 3487
    })
    validation: Dataset({
        features: ['claimID', 'claim', 'label', 'claimURL', 'reason', 'categories', 'speaker', 'checker', 'tags', 'article title', 'publish date', 'climate', 'entities'],
        num_rows: 3484
    })
})

论文摘要/引用

我们贡献了最大的公开可用数据集,用于自动验证声明的自然发生的事实性声明。它从26个英语事实检查网站收集而来,配对了文本来源和丰富的元数据,并由人类专业记者标记了真实性。我们对数据集进行了深入分析,突出了特征和挑战。此外,我们提出了自动真实性预测的结果,既使用已建立的基线方法,也使用了一种用于联合排名证据页面和预测真实性的新方法,该方法优于所有基线方法。通过对证据进行编码和建模元数据,实现了显著的性能提升。我们最佳的模型 Macro F1 得分为49.2%,表明这是一个具有挑战性的声明真实性预测测试平台。

@inproceedings{conf/emnlp2019/Augenstein,
added-at = {2019-10-27T00:00:00.000+0200},
author = {Augenstein, Isabelle and Lioma, Christina and Wang, Dongsheng and Chaves Lima, Lucas and Hansen, Casper and Hansen, Christian and Grue Simonsen, Jakob},
booktitle = {EMNLP},
crossref = {conf/emnlp/2019},
publisher = {Association for Computational Linguistics},
title = {MultiFC: A Real-World Multi-Domain Dataset for Evidence-Based Fact Checking of Claims},
year = 2019
}

原始自述文件

具备证据支持的声明的真实世界跨领域数据集

MultiFC 是最大的公开可用的自动验证声明的自然发生的事实性声明数据集。它从26个英语事实检查网站收集而来,配对了文本来源和丰富的元数据,并由人类专业记者标记了真实性。

TRAIN 和 DEV

train 和 dev 文件是(以制表符分隔),包含以下元数据:claimID、claim、label、claimURL、reason、categories、speaker、checker、tags、article title、publish date、climate、entities

无法爬取的字段被设置为 "None"。请参考我们论文的表11以查看摘要统计数据。

TEST

test 文件遵循相同的结构。然而,我们已经移除了标签。因此,它只呈现了12个元数据。claimID、claim、claim、reason、categories、speaker、checker、tags、article title、publish date、climate、entities

无法爬取的字段被设置为 "None"。请参考我们论文的表11以查看摘要统计数据。

Snippets

每个声明的文本原样提交给 Google Search API(无引号)。在 snippet 文件夹中,我们提供了检索到的前10个片段。在某些情况下,由于我们在片段中排除了 claimURL,因此提供较少的片段。snippet 文件夹中的每个文件命名为作为查询提交的声明的 claimID。Snippet 文件是(以制表符分隔),包含以下元数据:rank_position、title、snippet、snippet_url

更多信息,请参考我们的论文:References:Isabelle Augenstein,Christina Lioma,Dongsheng Wang,Lucas Chaves Lima,Casper Hansen,Christian Hansen,和 Jakob Grue Simonsen。2019。MultiFC:A Real-World Multi-Domain Dataset for Evidence-Based Fact Checking of Claims。在 EMNLP。计算语言学协会。

https://copenlu.github.io/publication/2019_emnlp_augenstein/