数据集:

range3/wiki40b-ja

英文

range3/wiki40b-ja

该数据集由wiki40b数据集中的三个parquet文件组成,仅包含日语数据。这是通过以下Python代码生成的。

这个数据集由wiki40b数据集中的三个parquet文件组成,仅包含日语数据。这是通过以下python代码生成的。

import datasets

dss = datasets.load_dataset(
    "wiki40b",
    "ja",
    beam_runner="DirectRunner",
)

for split,ds in dss.items():
    ds.to_parquet(f"wikipedia-ja-20230101/{split}.parquet")