此模型是在 PlanTL-GOB-ES/roberta-large-bne 上进行微调的版本,用于 Spanish Fake News Dataset 。
在评估集上实现了以下结果:
因此,根据 leaderboard ,我们的模型优于最佳模型(分数F1 = 0.7666)。
RoBERTa-large-bne 是适用于西班牙语的基于变换器的遮蔽语言模型。它基于RoBERTa大型模型,并使用迄今为止所知的最大西班牙语语料库进行了预训练,该语料库总共有570GB的经过处理的干净和去重的文本,这些文本是由西班牙国家图书馆(Biblioteca Nacional de España)在2009年至2019年期间进行的网络爬虫抓取处理而得到的。
这项任务的目标是通过分析文本表述来判断新闻是否为虚假或真实。
FakeDeS: Fake News Detection in Spanish Shared Task
假新闻提供了旨在以不同目的欺骗人们的信息:恐怖主义、政治选举、广告、讽刺等等。在社交网络中,虚假信息在几秒钟内在成千上万人之间传播,因此有必要开发帮助控制网络上虚假信息数量的工具。类似的任务有社交网络中的流行度检测和消息主观性检测。虚假新闻检测系统旨在帮助用户检测和过滤潜在的欺骗性新闻。有意误导性新闻的预测是基于对真实和欺诈性先前审核新闻的分析,即注释的语料库。
西班牙虚假新闻语料库是从多个网络来源收集的新闻的集合:建立的报纸网站、媒体公司网站、专门用于验证虚假新闻的网站,由不同记者指定为定期发布虚假新闻的网站。这些新闻收集于2018年1月至7月,全部使用墨西哥西班牙语撰写。
该语料库从2018年1月至7月收集了971篇新闻,来自不同来源:
该语料库的标记只考虑了两个类别(真实或虚假),采用了手动标注的过程:
训练语料库包含以下信息:
类别:虚假/真实
主题:科学/运动/经济/教育/娱乐/政治/健康/安全/社会
标题:新闻的标题
正文:新闻的完整文本
链接:新闻发布的URL
需要更多信息
待公布
在训练过程中使用了以下超参数:
Training Loss | Epoch | Step | Validation Loss | F1 | Accuracy |
---|---|---|---|---|---|
No log | 1.0 | 243 | 0.6282 | 0.7513 | 0.75 |
No log | 2.0 | 486 | 0.9600 | 0.7346 | 0.7587 |
0.5099 | 3.0 | 729 | 1.2128 | 0.7656 | 0.7570 |
0.5099 | 4.0 | 972 | 1.4001 | 0.7606 | 0.7622 |
0.1949 | 5.0 | 1215 | 1.9748 | 0.6475 | 0.7220 |
0.1949 | 6.0 | 1458 | 1.7386 | 0.7706 | 0.7710 |
0.0263 | 7.0 | 1701 | 1.7474 | 0.7717 | 0.7797 |
0.0263 | 8.0 | 1944 | 1.8114 | 0.7695 | 0.7780 |
0.0046 | 9.0 | 2187 | 1.8444 | 0.7709 | 0.7797 |
0.0046 | 10.0 | 2430 | 1.8552 | 0.7709 | 0.7797 |
from transformers import pipeline ckpt = "Narrativaai/fake-news-detection-spanish" classifier = pipeline("text-classification", model=ckpt) headline = "Your headline" text = "Your article text here..." classifier(headline + " [SEP] " + text)
创建者: Narrativa
关于Narrativa:自然语言生成(NLG)|基于机器学习的平台Gabriele构建和部署自然语言解决方案。 #NLG #AI