数据集:

indonesian-nlp/id_newspapers_2018

语言:

id

计算机处理:

monolingual

大小:

100K<n<1M

语言创建人:

found

批注创建人:

no-annotation

源数据集:

original

许可:

cc-by-4.0
英文

印度尼西亚在线报纸数据集

这是由Feryandi Nurdiantoro( https://github.com/feryandi/Dataset-Artikel )创建的数据集的副本。原始的JSON格式数据集以不压缩的形式存储在Google Drive中,分成了500,000多个文件,每个文件包含一篇文章。不幸的是,由于其大小,无法将整个数据集下载为一个大的压缩文件(在线压缩需要很长时间)。因此,我在这里提供了一个副本和其经过清理的压缩文件。

该数据集包含了7家印度尼西亚报纸的约500,000篇文章(总计1.36亿个词),这些报纸包括:Detik、Kompas、Tempo、CNN Indonesia、Sindo、Republika和Poskota。这些文章的日期范围从2018年1月1日至2018年8月20日(有少数早于此日期的例外)。未压缩的500,000个JSON文件(newspapers-json.tgz)的大小约为2.2GB,经过清理后的未压缩的大文本文件(newspapers.txt.gz)约为1GB。在Google Drive上的原始资源还包含了一份以HTML格式的数据集,其中包括来自在线新闻网站的原始数据(图片、css、javascript等)。我没有在这里复制它,因为它大约有60GB,我们在NLP研究中通常只需要文本内容。

以下是压缩文件:

  • newspaper-json.gz:压缩的原始500,000个JSON文件。
  • newspaper.txt.gz:将所有JSON文件转储到一个大的清理后的文本文件中,通常这是唯一需要用于语言模型训练的文件。

授权协议已从源中复制:

许可协议

该作品根据 Creative Commons Attribution-ShareAlike 4.0 International License 进行许可。该数据集仅用于协助研究印度尼西亚语言(在计算或语言学领域)的开放科学研究,只能用于这个目的。数据集中每篇文章的所有权属于其所在的报纸,维护该存储库的人员不对其中的任何内容主张所有权。如果您认为该数据集以任何方式侵犯了现有的版权,请联系存储库维护者。