数据集:

TigerResearch/pretrain_zh

英文

"pretrain_zh" 数据集卡片

Tigerbot pretrain数据的中文部分。

包含(未压缩前) 中文书籍zh-books 12G, 中文互联网zh-webtext 25G, 中文百科zh-wiki 19G

更多语料请关注开源模型及持续更新 https://github.com/TigerResearch/TigerBot

用途

import datasets

ds_sft = datasets.load_dataset('TigerResearch/pretrain_zh')