multiFC

一份用于自动验证声明的数据集
许可证目前未知，请参考原论文/ dataset site ：
https://arxiv.org/abs/1909.03242

数据集内容

重要提示：测试集中的标签列有虚假值，因为这些值未提供（请参阅原始自述文件中的说明）

DatasetDict({
    train: Dataset({
        features: ['claimID', 'claim', 'label', 'claimURL', 'reason', 'categories', 'speaker', 'checker', 'tags', 'article title', 'publish date', 'climate', 'entities'],
        num_rows: 27871
    })
    test: Dataset({
        features: ['claimID', 'claim', 'label', 'claimURL', 'reason', 'categories', 'speaker', 'checker', 'tags', 'article title', 'publish date', 'climate', 'entities'],
        num_rows: 3487
    })
    validation: Dataset({
        features: ['claimID', 'claim', 'label', 'claimURL', 'reason', 'categories', 'speaker', 'checker', 'tags', 'article title', 'publish date', 'climate', 'entities'],
        num_rows: 3484
    })
})

论文摘要/引用

我们贡献了最大的公开可用数据集，用于自动验证声明的自然发生的事实性声明。它从26个英语事实检查网站收集而来，配对了文本来源和丰富的元数据，并由人类专业记者标记了真实性。我们对数据集进行了深入分析，突出了特征和挑战。此外，我们提出了自动真实性预测的结果，既使用已建立的基线方法，也使用了一种用于联合排名证据页面和预测真实性的新方法，该方法优于所有基线方法。通过对证据进行编码和建模元数据，实现了显著的性能提升。我们最佳的模型 Macro F1 得分为49.2%，表明这是一个具有挑战性的声明真实性预测测试平台。

@inproceedings{conf/emnlp2019/Augenstein,
added-at = {2019-10-27T00:00:00.000+0200},
author = {Augenstein, Isabelle and Lioma, Christina and Wang, Dongsheng and Chaves Lima, Lucas and Hansen, Casper and Hansen, Christian and Grue Simonsen, Jakob},
booktitle = {EMNLP},
crossref = {conf/emnlp/2019},
publisher = {Association for Computational Linguistics},
title = {MultiFC: A Real-World Multi-Domain Dataset for Evidence-Based Fact Checking of Claims},
year = 2019
}

原始自述文件

具备证据支持的声明的真实世界跨领域数据集

MultiFC 是最大的公开可用的自动验证声明的自然发生的事实性声明数据集。它从26个英语事实检查网站收集而来，配对了文本来源和丰富的元数据，并由人类专业记者标记了真实性。

TRAIN 和 DEV

train 和 dev 文件是（以制表符分隔），包含以下元数据：claimID、claim、label、claimURL、reason、categories、speaker、checker、tags、article title、publish date、climate、entities

无法爬取的字段被设置为 "None"。请参考我们论文的表11以查看摘要统计数据。

TEST

test 文件遵循相同的结构。然而，我们已经移除了标签。因此，它只呈现了12个元数据。claimID、claim、claim、reason、categories、speaker、checker、tags、article title、publish date、climate、entities

无法爬取的字段被设置为 "None"。请参考我们论文的表11以查看摘要统计数据。

Snippets

每个声明的文本原样提交给 Google Search API（无引号）。在 snippet 文件夹中，我们提供了检索到的前10个片段。在某些情况下，由于我们在片段中排除了 claimURL，因此提供较少的片段。snippet 文件夹中的每个文件命名为作为查询提交的声明的 claimID。Snippet 文件是（以制表符分隔），包含以下元数据：rank_position、title、snippet、snippet_url

更多信息，请参考我们的论文：References：Isabelle Augenstein，Christina Lioma，Dongsheng Wang，Lucas Chaves Lima，Casper Hansen，Christian Hansen，和 Jakob Grue Simonsen。2019。MultiFC：A Real-World Multi-Domain Dataset for Evidence-Based Fact Checking of Claims。在 EMNLP。计算语言学协会。

https://copenlu.github.io/publication/2019_emnlp_augenstein/

作者:

pszemraj

数据集大小:

89.07 MB