数据集:
clickbait_news_bg
任务:
文本分类子任务:
fact-checking语言:
bg计算机处理:
monolingual大小:
1K<n<10K语言创建人:
expert-generated批注创建人:
expert-generated源数据集:
original许可:
license:unknown这是一份保加利亚语新闻语料库,固定时间内的事实性受到质疑。新闻来自377个不同的来源,涵盖各个领域,包括政治、有趣的事实和技巧等。
该数据集是为Hack the Fake News黑客马拉松而准备的。该数据集由 Bulgarian Association of PR Agencies 提供,并且可在 Gitlab 获取。
该语料库是通过自动采集,并由新闻学专业的学生进行注释的。
训练数据集包含2,815个样本,其中1,940个(69%)是假新闻,1,968个(70%)是点击诱骗;测试集包含761个样本。
假新闻和点击诱骗之间有98%的相关性。
关于训练数据集的一个重要方面是它包含许多重复内容。这并不奇怪,因为它试图代表一段时间内在线上真实与假新闻的自然分布。由于发布虚假新闻的出版商通常拥有一组呈现相同欺骗性内容的网站,我们应该预期会出现一些重复内容。具体而言,训练数据集中包含了434篇独特的文章及其副本。平均每篇文章有三个转载,最多的一篇文章出现了45次。如果考虑到转载文章的标签,我们可以看到,如果一篇文章被转载,它更有可能是假新闻。在训练数据集中,有1018个假新闻有副本,而在训练集中有322个具有真实内容的文章有副本。
(数据集描述来自以下 paper 。)
[需要更多信息]
保加利亚语
[需要更多信息]
数据集中的每个条目包含以下元素:
fake_news_score - 表示文章是否是假新闻的标签
click_bait_score - 另一个表示是否为点击诱骗的标签
content_title - 文章标题
content_url - 原始文章的URL
content_published_time - 发布日期
content - 文章内容
训练数据集包含2,815个样本,其中1,940个(69%)是假新闻,1,968个(70%)是点击诱骗;
验证数据集包含761个测试样本。
[需要更多信息]
[需要更多信息]
源语言制作人是谁?[需要更多信息]
[需要更多信息]
注释员是谁?[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]