数据集:

fake_news_filipino

子任务:

fact-checking

语言:

tl

计算机处理:

monolingual

大小:

1K<n<10K

语言创建人:

crowdsourced

批注创建人:

expert-generated

源数据集:

original
英文

菲律宾假新闻数据集卡片

数据集摘要

菲律宾语低资源假新闻检测语料库,这是首个这样的数据集。包含3,206个经过专家标记的新闻样本,其中一半是真实新闻,一半是假新闻。

支持的任务和排行榜

[需要更多信息]

语言

该数据集主要使用菲律宾语,还包含一些在菲律宾方言中常用的英文单词。

数据集结构

数据实例

示例数据:

{
  "label": "0",
  "article": "Sa 8-pahinang desisyon, pinaboran ng Sandiganbayan First Division ang petition for Writ of Preliminary Attachment/Garnishment na inihain ng prosekusyon laban sa mambabatas."
}

数据字段

[需要更多信息]

数据拆分

[需要更多信息]

数据集创建

假新闻文章从被非营利独立媒体事实核查组织Verafiles和菲律宾新闻工作者联盟(NUJP)标记为假新闻网站的在线网站中获取。真实新闻文章来源于菲律宾的主流新闻网站,包括Pilipino Star Ngayon、Abante和Bandera。

策划理由

我们通过构建和制作我们称之为“菲律宾假新闻”来解决在菲律宾的假新闻检测中缺乏适当的、精心策划的基准数据集的问题。

源数据

初始数据收集和规范化

我们通过从源网站抓取信息构建数据集,并将所有字符编码为UTF-8。预处理较轻,以保持信息完整:保留大小写和标点符号,不纠正任何拼写错误的单词。

谁是源语言制作者?

Jan Christian Blaise Cruz,Julianne Agatha Tan和Charibeth Cheng

注释

注释过程

[需要更多信息]

注释者是谁?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据时的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集策划者

Jan Christian Cruz,Julianne Agatha Tan和Charibeth Cheng

许可信息

[需要更多信息]

引用信息

@inproceedings{cruz2020localization,
  title={Localization of Fake News Detection via Multitask Transfer Learning},
  author={Cruz, Jan Christian Blaise and Tan, Julianne Agatha and Cheng, Charibeth},
  booktitle={Proceedings of The 12th Language Resources and Evaluation Conference},
  pages={2596--2604},
  year={2020}
}

贡献

感谢 @anaerobeth 添加了这个数据集。