数据集:

okite97/news-data

语言:

en

计算机处理:

monolingual

大小:

1K<n<10K

语言创建人:

found

批注创建人:

other

源数据集:

original

许可:

afl-3.0
英文

news-data 数据集卡片

数据集概述

News 数据集是一个英文数据集,包含了约4k个来自尼日利亚最受欢迎的新闻电视台 AriseTv 的独特新闻文章。

支持的任务和排行榜

支持将新闻文章分类到不同类别中。

语言

英文

数据集结构

数据实例

'''{'标题': '尼日利亚:全国进步大会仍未分区各党职位', '摘录': '全国进步大会(APC)领导层否认有关已经在其中一部分党职位上进行了分区的报道', '类别': '政治','标签': 2} '''

数据字段

  • 标题:包含新闻标题的字符串
  • 摘录:包含新闻正文的短篇摘录的字符串
  • 类别:告知某个示例的类别的字符串标签
  • 标签:告知某个示例的类的整数标签

数据拆分

Dataset Split Number of instances in split
Train 4,594
Paragraph 811

数据集创建

数据源

数据收集和标准化

数据集创建代码位于 https://github.com/chimaobi-okite/NLP-Projects-Competitions/blob/main/NewsCategorization/Data/NewsDataScraping.ipynb 。这些示例是从 https://www.arise.tv/ 获取的。

注释

注释过程

注释基于 arisetv 网站中的新闻类别。

谁是注释者?

AriseTv 的记者们

使用数据的注意事项

数据的社会影响

此数据集的目的是帮助开发能够将新闻文章分类的模型。

在处理大量文本时,此任务有助于高效地呈现信息。需要明确的是,该数据集训练的模型生成的任何摘要都反映了文章中使用的语言,但实际上是自动生成的。

偏差讨论

这些数据偏向于尼日利亚的新闻事件,但使用该数据构建的模型也可以对其他地区的新闻进行分类,尽管性能会轻微下降。

数据集策划者

该数据集是由 AriseTv 的工作人员创建的,但是由 @github-chimaobi-okite 进行了数据爬取。