News 数据集是一个英文数据集,包含了约4k个来自尼日利亚最受欢迎的新闻电视台 AriseTv 的独特新闻文章。
支持将新闻文章分类到不同类别中。
英文
'''{'标题': '尼日利亚:全国进步大会仍未分区各党职位', '摘录': '全国进步大会(APC)领导层否认有关已经在其中一部分党职位上进行了分区的报道', '类别': '政治','标签': 2} '''
Dataset Split | Number of instances in split |
---|---|
Train | 4,594 |
Paragraph | 811 |
数据集创建代码位于 https://github.com/chimaobi-okite/NLP-Projects-Competitions/blob/main/NewsCategorization/Data/NewsDataScraping.ipynb 。这些示例是从 https://www.arise.tv/ 获取的。
注释基于 arisetv 网站中的新闻类别。
谁是注释者?AriseTv 的记者们
此数据集的目的是帮助开发能够将新闻文章分类的模型。
在处理大量文本时,此任务有助于高效地呈现信息。需要明确的是,该数据集训练的模型生成的任何摘要都反映了文章中使用的语言,但实际上是自动生成的。
这些数据偏向于尼日利亚的新闻事件,但使用该数据构建的模型也可以对其他地区的新闻进行分类,尽管性能会轻微下降。
该数据集是由 AriseTv 的工作人员创建的,但是由 @github-chimaobi-okite 进行了数据爬取。