数据集:
pszemraj/multi_fc
一份用于自动验证声明的数据集
许可证目前未知,请参考原论文/ dataset site :
DatasetDict({ train: Dataset({ features: ['claimID', 'claim', 'label', 'claimURL', 'reason', 'categories', 'speaker', 'checker', 'tags', 'article title', 'publish date', 'climate', 'entities'], num_rows: 27871 }) test: Dataset({ features: ['claimID', 'claim', 'label', 'claimURL', 'reason', 'categories', 'speaker', 'checker', 'tags', 'article title', 'publish date', 'climate', 'entities'], num_rows: 3487 }) validation: Dataset({ features: ['claimID', 'claim', 'label', 'claimURL', 'reason', 'categories', 'speaker', 'checker', 'tags', 'article title', 'publish date', 'climate', 'entities'], num_rows: 3484 }) })
我们贡献了最大的公开可用数据集,用于自动验证声明的自然发生的事实性声明。它从26个英语事实检查网站收集而来,配对了文本来源和丰富的元数据,并由人类专业记者标记了真实性。我们对数据集进行了深入分析,突出了特征和挑战。此外,我们提出了自动真实性预测的结果,既使用已建立的基线方法,也使用了一种用于联合排名证据页面和预测真实性的新方法,该方法优于所有基线方法。通过对证据进行编码和建模元数据,实现了显著的性能提升。我们最佳的模型 Macro F1 得分为49.2%,表明这是一个具有挑战性的声明真实性预测测试平台。
@inproceedings{conf/emnlp2019/Augenstein, added-at = {2019-10-27T00:00:00.000+0200}, author = {Augenstein, Isabelle and Lioma, Christina and Wang, Dongsheng and Chaves Lima, Lucas and Hansen, Casper and Hansen, Christian and Grue Simonsen, Jakob}, booktitle = {EMNLP}, crossref = {conf/emnlp/2019}, publisher = {Association for Computational Linguistics}, title = {MultiFC: A Real-World Multi-Domain Dataset for Evidence-Based Fact Checking of Claims}, year = 2019 }
具备证据支持的声明的真实世界跨领域数据集
MultiFC 是最大的公开可用的自动验证声明的自然发生的事实性声明数据集。它从26个英语事实检查网站收集而来,配对了文本来源和丰富的元数据,并由人类专业记者标记了真实性。
TRAIN 和 DEVtrain 和 dev 文件是(以制表符分隔),包含以下元数据:claimID、claim、label、claimURL、reason、categories、speaker、checker、tags、article title、publish date、climate、entities
无法爬取的字段被设置为 "None"。请参考我们论文的表11以查看摘要统计数据。
TESTtest 文件遵循相同的结构。然而,我们已经移除了标签。因此,它只呈现了12个元数据。claimID、claim、claim、reason、categories、speaker、checker、tags、article title、publish date、climate、entities
无法爬取的字段被设置为 "None"。请参考我们论文的表11以查看摘要统计数据。
Snippets每个声明的文本原样提交给 Google Search API(无引号)。在 snippet 文件夹中,我们提供了检索到的前10个片段。在某些情况下,由于我们在片段中排除了 claimURL,因此提供较少的片段。snippet 文件夹中的每个文件命名为作为查询提交的声明的 claimID。Snippet 文件是(以制表符分隔),包含以下元数据:rank_position、title、snippet、snippet_url
更多信息,请参考我们的论文:References:Isabelle Augenstein,Christina Lioma,Dongsheng Wang,Lucas Chaves Lima,Casper Hansen,Christian Hansen,和 Jakob Grue Simonsen。2019。MultiFC:A Real-World Multi-Domain Dataset for Evidence-Based Fact Checking of Claims。在 EMNLP。计算语言学协会。
https://copenlu.github.io/publication/2019_emnlp_augenstein/