数据集:
mosaicml/instruct-v3
语言:
en这是一个聚合数据集,由 Databricks Dolly-15k 和 Anthropic Helpful and Harmless (HH-RLHF) 数据集衍生而来,再加上 Competition Math 、 Duorc 、 CoT GSM8k 、 Qasper 、 Quality 、 Summ Screen FD 和 Spider 。目的是创建一个许可宽松的指令跟随数据集,包含大量的长篇样本。
在创建此数据集过程中,对部分数据进行了转换。包括:将数据格式化为Alpaca格式,过滤长度,去除重复数据,添加指令(用于摘要和问答数据集),并使指令更接近人类输入(转换大小写,添加错别字等)。
Data Source | Number of Samples | Proportion (By Count of Samples) | Number of Tokens in Source | Proportion (By Count of Tokens) |
---|---|---|---|---|
competition_math | 4,995 | 8.89% | 1.6 M | 3.66% |
cot_gsm8k | 4,995 | 8.89% | 3.36 M | 7.67% |
dialogsum | 400 | 0.71% | 0.1 M | 0.23% |
dolly_hhrlhf | 34,333 | 61.13% | 5.89 M | 13.43% |
duorc | 4,986 | 8.88% | 7.8 M | 17.80% |
qasper | 1,998 | 3.56% | 8.72 M | 19.90% |
quality | 1,963 | 3.49% | 11.29 M | 25.78% |
scrolls/summ_screen_fd | 1,498 | 2.67% | 4.97 M | 11.33% |
spider | 999 | 1.78% | 0.089 M | 0.20% |
此数据集由MosaicML( https://www.mosaicml.com )开发,使用受CC BY-SA 3.0许可证的约束。
数据集中的某些材料类别包括以下来源的材料,根据CC BY-SA 3.0许可证授权:
Wikipedia(各个页面)- 版权所有© Wikipedia编辑和贡献者。
Dolly - Databricks( https://www.databricks.com )版权所有© Databricks