数据集:
indonesian-nlp/id_newspapers_2018
任务:
文本生成子任务:
language-modeling语言:
id计算机处理:
monolingual大小:
100K<n<1M语言创建人:
found批注创建人:
no-annotation源数据集:
original许可:
cc-by-4.0这是由Feryandi Nurdiantoro( https://github.com/feryandi/Dataset-Artikel )创建的数据集的副本。原始的JSON格式数据集以不压缩的形式存储在Google Drive中,分成了500,000多个文件,每个文件包含一篇文章。不幸的是,由于其大小,无法将整个数据集下载为一个大的压缩文件(在线压缩需要很长时间)。因此,我在这里提供了一个副本和其经过清理的压缩文件。
该数据集包含了7家印度尼西亚报纸的约500,000篇文章(总计1.36亿个词),这些报纸包括:Detik、Kompas、Tempo、CNN Indonesia、Sindo、Republika和Poskota。这些文章的日期范围从2018年1月1日至2018年8月20日(有少数早于此日期的例外)。未压缩的500,000个JSON文件(newspapers-json.tgz)的大小约为2.2GB,经过清理后的未压缩的大文本文件(newspapers.txt.gz)约为1GB。在Google Drive上的原始资源还包含了一份以HTML格式的数据集,其中包括来自在线新闻网站的原始数据(图片、css、javascript等)。我没有在这里复制它,因为它大约有60GB,我们在NLP研究中通常只需要文本内容。
以下是压缩文件:
授权协议已从源中复制:
该作品根据 Creative Commons Attribution-ShareAlike 4.0 International License 进行许可。该数据集仅用于协助研究印度尼西亚语言(在计算或语言学领域)的开放科学研究,只能用于这个目的。数据集中每篇文章的所有权属于其所在的报纸,维护该存储库的人员不对其中的任何内容主张所有权。如果您认为该数据集以任何方式侵犯了现有的版权,请联系存储库维护者。