数据集:

TigerResearch/sft_zh

语言:

zh

许可:

apache-2.0
英文

Tigerbot 开源项目中微调中文sft-zh数据合集

本合集涵盖本组织下开源的其他中文sft-中文-数据集,不需要重复下载

用法

import datasets
ds_sft = datasets.load_dataset('TigerResearch/sft_zh')

文件细分

类型 语言 数据集文件 数量
alpaca 中文 中文 1232321 0.5m
百科问答 中文 1233321 1k
名著问答 中文 1234321 1k
猜谜语 中文 1235321 1k
阅读理解 中文 1236321 5k
问答 中文 1237321 12k
知乎问答 中文 1238321 10k