数据集:

newsgroup

任务:

文本分类

子任务:

multi-class-classification

语言:

计算机处理:

monolingual

大小:

10K<n<100K

语言创建人:

found

批注创建人:

found

源数据集:

original

许可:

license:unknown

数据集介绍文件清单

英文

"newsgroup" 数据集卡片

数据集概述

"20 Newsgroups" 数据集是大约 20,000 个新闻组文档的集合，基本上均匀地分布在 20 个不同的新闻组中。据我所知，这个数据集最初可能是由肯·朗（Ken Lang）收集的，可能是为了他的 "Newsweeder：学习筛选 netnews document"，尽管他并没有明确提到这个数据集。 "20 Newsgroups" 数据集已经成为机器学习技术在文本应用方面的一个常用数据集，例如文本分类和文本聚类。

不包括交叉发布(post)并且只包括 "From" 和 "Subject" 标头(headers)。

支持的任务和排行榜

More Information Needed

语言

More Information Needed

数据集结构

数据实例

18828_alt.atheism

下载的数据集文件大小： 14.67 MB
生成的数据集大小： 1.67 MB
使用的磁盘总量： 16.34 MB

"train" 的示例如下所示。

18828_comp.graphics

下载的数据集文件大小： 14.67 MB
生成的数据集大小： 1.66 MB
使用的磁盘总量： 16.33 MB

"train" 的示例如下所示。

18828_comp.os.ms-windows.misc

下载的数据集文件大小： 14.67 MB
生成的数据集大小： 2.38 MB
使用的磁盘总量： 17.05 MB

"train" 的示例如下所示。

18828_comp.sys.ibm.pc.hardware

下载的数据集文件大小： 14.67 MB
生成的数据集大小： 1.18 MB
使用的磁盘总量： 15.85 MB

"train" 的示例如下所示。

18828_comp.sys.mac.hardware

下载的数据集文件大小： 14.67 MB
生成的数据集大小： 1.06 MB
使用的磁盘总量： 15.73 MB

"train" 的示例如下所示。

数据字段

所有拆分中的数据字段均相同。

18828_alt.atheism

text : 一个字符串特征。

18828_comp.graphics

text : 一个字符串特征。

18828_comp.os.ms-windows.misc

text : 一个字符串特征。

18828_comp.sys.ibm.pc.hardware

text : 一个字符串特征。

18828_comp.sys.mac.hardware

text : 一个字符串特征。

数据拆分

name	train
18828_alt.atheism	799
18828_comp.graphics	973
18828_comp.os.ms-windows.misc	985
18828_comp.sys.ibm.pc.hardware	982
18828_comp.sys.mac.hardware	961

数据集创建

策划理由

More Information Needed

源数据

初始数据收集和规范化

More Information Needed

谁是源语言的生产者？

More Information Needed

注释

注释过程

More Information Needed

谁是注释人员？

More Information Needed

个人和敏感信息

More Information Needed

使用数据的注意事项

附加信息

数据集策划者

More Information Needed

许可信息

More Information Needed

引用信息

@incollection{LANG1995331,
title = {NewsWeeder: Learning to Filter Netnews},
editor = {Armand Prieditis and Stuart Russell},
booktitle = {Machine Learning Proceedings 1995},
publisher = {Morgan Kaufmann},
address = {San Francisco (CA)},
pages = {331-339},
year = {1995},
isbn = {978-1-55860-377-6},
doi = {https://doi.org/10.1016/B978-1-55860-377-6.50048-7},
url = {https://www.sciencedirect.com/science/article/pii/B9781558603776500487},
author = {Ken Lang},
}

贡献

感谢 @mariamabarham 、 @thomwolf 和 @lhoestq 添加此数据集。

作者:

佚名

数据集大小:

117.49 KB

"newsgroup" 数据集卡片

数据集概述

支持的任务和排行榜

语言

数据集结构

数据实例

数据字段

数据拆分

数据集创建

策划理由

源数据

注释

个人和敏感信息

使用数据的注意事项

数据的社会影响

偏见讨论

其他已知限制

附加信息

数据集策划者

许可信息

引用信息

贡献