英文

RoBERTa-large-fake-news-detection-spanish

此模型是在 PlanTL-GOB-ES/roberta-large-bne 上进行微调的版本,用于 Spanish Fake News Dataset

在评估集上实现了以下结果:

  • 损失:1.7474
  • F1:0.7717
  • 准确率:0.7797

因此,根据 leaderboard ,我们的模型优于最佳模型(分数F1 = 0.7666)。

模型描述

RoBERTa-large-bne 是适用于西班牙语的基于变换器的遮蔽语言模型。它基于RoBERTa大型模型,并使用迄今为止所知的最大西班牙语语料库进行了预训练,该语料库总共有570GB的经过处理的干净和去重的文本,这些文本是由西班牙国家图书馆(Biblioteca Nacional de España)在2009年至2019年期间进行的网络爬虫抓取处理而得到的。

预期用途和限制

这项任务的目标是通过分析文本表述来判断新闻是否为虚假或真实。

训练和评估数据

FakeDeS: Fake News Detection in Spanish Shared Task

假新闻提供了旨在以不同目的欺骗人们的信息:恐怖主义、政治选举、广告、讽刺等等。在社交网络中,虚假信息在几秒钟内在成千上万人之间传播,因此有必要开发帮助控制网络上虚假信息数量的工具。类似的任务有社交网络中的流行度检测和消息主观性检测。虚假新闻检测系统旨在帮助用户检测和过滤潜在的欺骗性新闻。有意误导性新闻的预测是基于对真实和欺诈性先前审核新闻的分析,即注释的语料库。

西班牙虚假新闻语料库是从多个网络来源收集的新闻的集合:建立的报纸网站、媒体公司网站、专门用于验证虚假新闻的网站,由不同记者指定为定期发布虚假新闻的网站。这些新闻收集于2018年1月至7月,全部使用墨西哥西班牙语撰写。

该语料库从2018年1月至7月收集了971篇新闻,来自不同来源:

  • 建立的报纸网站,
  • 媒体公司网站,
  • 专门用于验证虚假新闻的网站,
  • 由不同记者指定为定期发布虚假新闻的网站。

该语料库的标记只考虑了两个类别(真实或虚假),采用了手动标注的过程:

  • 如果有证据表明某个新闻已经在可靠的网站上发布,则该新闻是真实的。
  • 如果有来自可靠网站或专门检测欺诈性内容的网站与该新闻相矛盾,或者除了消息来源之外没有找到其他证据,则该新闻是虚假的。
  • 我们收集了一个事件的真实虚假新闻对,因此语料库中的新闻存在关联性。为了避免主题偏见,语料库涵盖了来自9个不同主题的新闻:科学、体育、经济、教育、娱乐、政治、健康、安全和社会。如下表所示,虚假和真实新闻的数量相当平衡。大约70%将用作训练语料库(676篇新闻),30%用作测试语料库(295篇新闻)。

训练语料库包含以下信息:

  • 类别:虚假/真实

  • 主题:科学/运动/经济/教育/娱乐/政治/健康/安全/社会

  • 标题:新闻的标题

  • 正文:新闻的完整文本

  • 链接:新闻发布的URL

需要更多信息

训练过程

待公布

训练超参数

在训练过程中使用了以下超参数:

  • 学习率:2e-05
  • 训练批次大小:4
  • 评估批次大小:4
  • 种子:42
  • 优化器:Adam(betas=(0.9,0.999)和epsilon=1e-08)
  • lr_scheduler_type:linear
  • 训练轮数:10

训练结果

Training Loss Epoch Step Validation Loss F1 Accuracy
No log 1.0 243 0.6282 0.7513 0.75
No log 2.0 486 0.9600 0.7346 0.7587
0.5099 3.0 729 1.2128 0.7656 0.7570
0.5099 4.0 972 1.4001 0.7606 0.7622
0.1949 5.0 1215 1.9748 0.6475 0.7220
0.1949 6.0 1458 1.7386 0.7706 0.7710
0.0263 7.0 1701 1.7474 0.7717 0.7797
0.0263 8.0 1944 1.8114 0.7695 0.7780
0.0046 9.0 2187 1.8444 0.7709 0.7797
0.0046 10.0 2430 1.8552 0.7709 0.7797

使用HF管道进行快速使用

from transformers import pipeline
ckpt = "Narrativaai/fake-news-detection-spanish"

classifier = pipeline("text-classification", model=ckpt)

headline = "Your headline"
text = "Your article text here..."
    
classifier(headline + " [SEP] " + text)

框架版本

  • Transformers 4.11.3
  • Pytorch 1.9.0+cu111
  • Datasets 1.14.0
  • Tokenizers 0.10.3

创建者: Narrativa

关于Narrativa:自然语言生成(NLG)|基于机器学习的平台Gabriele构建和部署自然语言解决方案。 #NLG #AI