数据集:

vesteinn/babylm

英文

注意

这是BabyLM挑战的预处理数据 https://babylm.github.io/ 如果你想要原始的未处理文件,应该直接下载它们。