数据集:

mosaicml/instruct-v3

语言:

en
英文

MosaicML Instruct V3

这是一个聚合数据集,由 Databricks Dolly-15k Anthropic Helpful and Harmless (HH-RLHF) 数据集衍生而来,再加上 Competition Math Duorc CoT GSM8k Qasper Quality Summ Screen FD Spider 。目的是创建一个许可宽松的指令跟随数据集,包含大量的长篇样本。

数据处理

在创建此数据集过程中,对部分数据进行了转换。包括:将数据格式化为Alpaca格式,过滤长度,去除重复数据,添加指令(用于摘要和问答数据集),并使指令更接近人类输入(转换大小写,添加错别字等)。

数据混合

Data Source Number of Samples Proportion (By Count of Samples) Number of Tokens in Source Proportion (By Count of Tokens)
competition_math 4,995 8.89% 1.6 M 3.66%
cot_gsm8k 4,995 8.89% 3.36 M 7.67%
dialogsum 400 0.71% 0.1 M 0.23%
dolly_hhrlhf 34,333 61.13% 5.89 M 13.43%
duorc 4,986 8.88% 7.8 M 17.80%
qasper 1,998 3.56% 8.72 M 19.90%
quality 1,963 3.49% 11.29 M 25.78%
scrolls/summ_screen_fd 1,498 2.67% 4.97 M 11.33%
spider 999 1.78% 0.089 M 0.20%

许可证/归属

此数据集由MosaicML( https://www.mosaicml.com )开发,使用受CC BY-SA 3.0许可证的约束。

数据集中的某些材料类别包括以下来源的材料,根据CC BY-SA 3.0许可证授权:

Wikipedia(各个页面)- 版权所有© Wikipedia编辑和贡献者。

Dolly - Databricks( https://www.databricks.com )版权所有© Databricks