数据集:
fake_news_filipino
任务:
文本分类子任务:
fact-checking语言:
tl计算机处理:
monolingual大小:
1K<n<10K语言创建人:
crowdsourced批注创建人:
expert-generated源数据集:
original许可:
license:unknown菲律宾语低资源假新闻检测语料库,这是首个这样的数据集。包含3,206个经过专家标记的新闻样本,其中一半是真实新闻,一半是假新闻。
[需要更多信息]
该数据集主要使用菲律宾语,还包含一些在菲律宾方言中常用的英文单词。
示例数据:
{ "label": "0", "article": "Sa 8-pahinang desisyon, pinaboran ng Sandiganbayan First Division ang petition for Writ of Preliminary Attachment/Garnishment na inihain ng prosekusyon laban sa mambabatas." }
[需要更多信息]
[需要更多信息]
假新闻文章从被非营利独立媒体事实核查组织Verafiles和菲律宾新闻工作者联盟(NUJP)标记为假新闻网站的在线网站中获取。真实新闻文章来源于菲律宾的主流新闻网站,包括Pilipino Star Ngayon、Abante和Bandera。
我们通过构建和制作我们称之为“菲律宾假新闻”来解决在菲律宾的假新闻检测中缺乏适当的、精心策划的基准数据集的问题。
我们通过从源网站抓取信息构建数据集,并将所有字符编码为UTF-8。预处理较轻,以保持信息完整:保留大小写和标点符号,不纠正任何拼写错误的单词。
谁是源语言制作者?Jan Christian Blaise Cruz,Julianne Agatha Tan和Charibeth Cheng
[需要更多信息]
注释者是谁?[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
Jan Christian Cruz,Julianne Agatha Tan和Charibeth Cheng
[需要更多信息]
@inproceedings{cruz2020localization, title={Localization of Fake News Detection via Multitask Transfer Learning}, author={Cruz, Jan Christian Blaise and Tan, Julianne Agatha and Cheng, Charibeth}, booktitle={Proceedings of The 12th Language Resources and Evaluation Conference}, pages={2596--2604}, year={2020} }
感谢 @anaerobeth 添加了这个数据集。