数据集:

AhmedSSabir/Japanese-wiki-dump-sentence-dataset

英文

数据集

5M(5121625)个干净的日语完整句子,带有上下文。该数据集可用于学习无监督的语义相似性等。