数据集:

clickbait_news_bg

子任务:

fact-checking

语言:

bg

计算机处理:

monolingual

大小:

1K<n<10K

语言创建人:

expert-generated

批注创建人:

expert-generated

源数据集:

original
英文

具体页面数据卡片:保加利亚语的点击诱骗/假新闻数据集

数据集摘要

这是一份保加利亚语新闻语料库,固定时间内的事实性受到质疑。新闻来自377个不同的来源,涵盖各个领域,包括政治、有趣的事实和技巧等。

该数据集是为Hack the Fake News黑客马拉松而准备的。该数据集由 Bulgarian Association of PR Agencies 提供,并且可在 Gitlab 获取。

该语料库是通过自动采集,并由新闻学专业的学生进行注释的。

训练数据集包含2,815个样本,其中1,940个(69%)是假新闻,1,968个(70%)是点击诱骗;测试集包含761个样本。

假新闻和点击诱骗之间有98%的相关性。

关于训练数据集的一个重要方面是它包含许多重复内容。这并不奇怪,因为它试图代表一段时间内在线上真实与假新闻的自然分布。由于发布虚假新闻的出版商通常拥有一组呈现相同欺骗性内容的网站,我们应该预期会出现一些重复内容。具体而言,训练数据集中包含了434篇独特的文章及其副本。平均每篇文章有三个转载,最多的一篇文章出现了45次。如果考虑到转载文章的标签,我们可以看到,如果一篇文章被转载,它更有可能是假新闻。在训练数据集中,有1018个假新闻有副本,而在训练集中有322个具有真实内容的文章有副本。

(数据集描述来自以下 paper 。)

支持的任务和排行榜

[需要更多信息]

语言

保加利亚语

数据集结构

数据实例

[需要更多信息]

数据字段

数据集中的每个条目包含以下元素:

  • fake_news_score - 表示文章是否是假新闻的标签

  • click_bait_score - 另一个表示是否为点击诱骗的标签

  • content_title - 文章标题

  • content_url - 原始文章的URL

  • content_published_time - 发布日期

  • content - 文章内容

数据拆分

训练数据集包含2,815个样本,其中1,940个(69%)是假新闻,1,968个(70%)是点击诱骗;

验证数据集包含761个测试样本。

数据集创建

策划理由

[需要更多信息]

源数据

初始数据采集和标准化

[需要更多信息]

源语言制作人是谁?

[需要更多信息]

注释

注释过程

[需要更多信息]

注释员是谁?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集策划者

[需要更多信息]

许可信息

[需要更多信息]

引用信息

[需要更多信息]

贡献者

感谢 @tsvm @lhoestq 添加了这个数据集。