数据集:

acul3/KoPI-CC_News

语言:

id

语言创建人:

found

批注创建人:

no-annotation

源数据集:

original

许可:

cc
英文

数据集概述

KoPI(印度尼西亚语语料库)-CC_News 是从2016年至2022年(7月)的 CC NEWS Common Crawl 中提取的仅限印度尼西亚语的数据集,每个快照都是使用 warcio、trafilatura 提取并使用 fasttext 进行过滤。

很快将提供详细信息。