印度尼西亚在线报纸数据集

这是由Feryandi Nurdiantoro（ https://github.com/feryandi/Dataset-Artikel ）创建的数据集的副本。原始的JSON格式数据集以不压缩的形式存储在Google Drive中，分成了500,000多个文件，每个文件包含一篇文章。不幸的是，由于其大小，无法将整个数据集下载为一个大的压缩文件（在线压缩需要很长时间）。因此，我在这里提供了一个副本和其经过清理的压缩文件。

该数据集包含了7家印度尼西亚报纸的约500,000篇文章（总计1.36亿个词），这些报纸包括：Detik、Kompas、Tempo、CNN Indonesia、Sindo、Republika和Poskota。这些文章的日期范围从2018年1月1日至2018年8月20日（有少数早于此日期的例外）。未压缩的500,000个JSON文件（newspapers-json.tgz）的大小约为2.2GB，经过清理后的未压缩的大文本文件（newspapers.txt.gz）约为1GB。在Google Drive上的原始资源还包含了一份以HTML格式的数据集，其中包括来自在线新闻网站的原始数据（图片、css、javascript等）。我没有在这里复制它，因为它大约有60GB，我们在NLP研究中通常只需要文本内容。

以下是压缩文件：

newspaper-json.gz：压缩的原始500,000个JSON文件。
newspaper.txt.gz：将所有JSON文件转储到一个大的清理后的文本文件中，通常这是唯一需要用于语言模型训练的文件。

授权协议已从源中复制：

许可协议

该作品根据 Creative Commons Attribution-ShareAlike 4.0 International License 进行许可。该数据集仅用于协助研究印度尼西亚语言（在计算或语言学领域）的开放科学研究，只能用于这个目的。数据集中每篇文章的所有权属于其所在的报纸，维护该存储库的人员不对其中的任何内容主张所有权。如果您认为该数据集以任何方式侵犯了现有的版权，请联系存储库维护者。

作者:

indonesian-nlp

数据集大小:

425.36 MB