数据集:
ag_news
任务:
文本分类子任务:
topic-classification语言:
en计算机处理:
monolingual大小:
100K<n<1M语言创建人:
found批注创建人:
found源数据集:
original许可:
license:unknownAG 是一个包含超过1百万新闻文章的集合。这些新闻文章是由ComeToMyHead在一年多的时间内从2千多个新闻来源收集而来。ComeToMyHead是一个学术新闻搜索引擎,自2004年7月开始运营。该数据集由学术界提供给数据挖掘(聚类、分类等)、信息检索(排名、搜索等)、XML、数据压缩、数据流等非商业活动的研究目的使用。如需更多信息,请参考链接 http://www.di.unipi.it/~gulli/AG_corpus_of_news_articles.html
AG新闻主题分类数据集是由Xiang Zhang(xiang.zhang@nyu.edu)根据上述数据集构建的。该数据集在以下论文中作为文本分类基准用于评估:Xiang Zhang,Junbo Zhao,Yann LeCun。用于文本分类的字符级卷积网络。神经信息处理系统28(NIPS 2015)。
"train"的一个示例如下所示。
{ "label": 3, "text": "New iPad released Just like every other September, this one is no different. Apple is planning to release a bigger, heavier, fatter iPad that..." }
在所有拆分中,数据字段都相同。
默认name | train | test |
---|---|---|
default | 120000 | 7600 |
@inproceedings{Zhang2015CharacterlevelCN, title={Character-level Convolutional Networks for Text Classification}, author={Xiang Zhang and Junbo Jake Zhao and Yann LeCun}, booktitle={NIPS}, year={2015} }
感谢 @jxmorris12 , @thomwolf , @lhoestq , @lewtun 添加此数据集。