数据集:
newsgroup
任务:
文本分类语言:
en计算机处理:
monolingual大小:
10K<n<100K语言创建人:
found批注创建人:
found源数据集:
original许可:
license:unknown"20 Newsgroups" 数据集是大约 20,000 个新闻组文档的集合,基本上均匀地分布在 20 个不同的新闻组中。据我所知,这个数据集最初可能是由肯·朗(Ken Lang)收集的,可能是为了他的 "Newsweeder:学习筛选 netnews document",尽管他并没有明确提到这个数据集。 "20 Newsgroups" 数据集已经成为机器学习技术在文本应用方面的一个常用数据集,例如文本分类和文本聚类。
不包括交叉发布(post)并且只包括 "From" 和 "Subject" 标头(headers)。
"train" 的示例如下所示。
18828_comp.graphics"train" 的示例如下所示。
18828_comp.os.ms-windows.misc"train" 的示例如下所示。
18828_comp.sys.ibm.pc.hardware"train" 的示例如下所示。
18828_comp.sys.mac.hardware"train" 的示例如下所示。
所有拆分中的数据字段均相同。
18828_alt.atheismname | train |
---|---|
18828_alt.atheism | 799 |
18828_comp.graphics | 973 |
18828_comp.os.ms-windows.misc | 985 |
18828_comp.sys.ibm.pc.hardware | 982 |
18828_comp.sys.mac.hardware | 961 |
@incollection{LANG1995331, title = {NewsWeeder: Learning to Filter Netnews}, editor = {Armand Prieditis and Stuart Russell}, booktitle = {Machine Learning Proceedings 1995}, publisher = {Morgan Kaufmann}, address = {San Francisco (CA)}, pages = {331-339}, year = {1995}, isbn = {978-1-55860-377-6}, doi = {https://doi.org/10.1016/B978-1-55860-377-6.50048-7}, url = {https://www.sciencedirect.com/science/article/pii/B9781558603776500487}, author = {Ken Lang}, }
感谢 @mariamabarham 、 @thomwolf 和 @lhoestq 添加此数据集。