Tigerbot
开源项目中微调中文sft-zh数据合集
本合集涵盖本组织下开源的其他中文sft-中文-数据集,不需要重复下载
用法
import datasets
ds_sft = datasets.load_dataset('TigerResearch/sft_zh')
文件细分
类型
|
语言
|
数据集文件
|
数量
|
alpaca 中文
|
中文
|
1232321
|
0.5m
|
百科问答
|
中文
|
1233321
|
1k
|
名著问答
|
中文
|
1234321
|
1k
|
猜谜语
|
中文
|
1235321
|
1k
|
阅读理解
|
中文
|
1236321
|
5k
|
问答
|
中文
|
1237321
|
12k
|
知乎问答
|
中文
|
1238321
|
10k
|