数据集:
range3/wikipedia-ja-20230101
这个数据集是从维基百科数据集中提取的仅包含日语数据的parquet文件。它是通过以下Python代码生成的。
这个数据集是从维基百科数据集中提取的仅包含日语数据的parquet文件。它是通过以下Python代码生成的。
import datasets dss = datasets.load_dataset( "wikipedia", language="ja", date="20230101", beam_runner="DirectRunner", ) for split,ds in dss.items(): ds.to_parquet(f"wikipedia-ja-20230101/{split}.parquet")