数据集:

ag_news

语言:

en

计算机处理:

monolingual

大小:

100K<n<1M

语言创建人:

found

批注创建人:

found

源数据集:

original
英文

"ag_news" 数据集卡片

数据集概述

AG 是一个包含超过1百万新闻文章的集合。这些新闻文章是由ComeToMyHead在一年多的时间内从2千多个新闻来源收集而来。ComeToMyHead是一个学术新闻搜索引擎,自2004年7月开始运营。该数据集由学术界提供给数据挖掘(聚类、分类等)、信息检索(排名、搜索等)、XML、数据压缩、数据流等非商业活动的研究目的使用。如需更多信息,请参考链接 http://www.di.unipi.it/~gulli/AG_corpus_of_news_articles.html

AG新闻主题分类数据集是由Xiang Zhang(xiang.zhang@nyu.edu)根据上述数据集构建的。该数据集在以下论文中作为文本分类基准用于评估:Xiang Zhang,Junbo Zhao,Yann LeCun。用于文本分类的字符级卷积网络。神经信息处理系统28(NIPS 2015)。

支持的任务和排行榜

More Information Needed

语言

More Information Needed

数据集结构

数据实例

默认
  • 下载的数据集文件大小: 31.33 MB
  • 生成的数据集大小: 31.70 MB
  • 使用的总磁盘空间: 63.02 MB

"train"的一个示例如下所示。

{
    "label": 3,
    "text": "New iPad released Just like every other September, this one is no different. Apple is planning to release a bigger, heavier, fatter iPad that..."
}

数据字段

在所有拆分中,数据字段都相同。

默认
  • text :字符串特征。
  • label :分类标签,可能的值包括 World (0)、 Sports (1)、 Business (2)、 Sci/Tech (3)。

数据拆分

name train test
default 120000 7600

数据集创建

策划理由

More Information Needed

源数据

初始数据收集和归一化

More Information Needed

谁是源语言生成者?

More Information Needed

注释

注释过程

More Information Needed

谁是注释者?

More Information Needed

个人和敏感信息

More Information Needed

使用数据的注意事项

数据的社会影响

More Information Needed

偏见讨论

More Information Needed

其他已知限制

More Information Needed

附加信息

数据集策划者

More Information Needed

许可信息

More Information Needed

引用信息

@inproceedings{Zhang2015CharacterlevelCN,
  title={Character-level Convolutional Networks for Text Classification},
  author={Xiang Zhang and Junbo Jake Zhao and Yann LeCun},
  booktitle={NIPS},
  year={2015}
}

贡献

感谢 @jxmorris12 @thomwolf @lhoestq @lewtun 添加此数据集。