数据集:
mosaicml/dolly_hhrlhf
该数据集是由 Databrick's dolly-15k 数据集和 Anthropic's HH-RLHF 的筛选子集组合而成。它还包括一个测试集,原始dolly数据集中没有提供。该测试集由从dolly中随机选择的200个样本以及通过筛选过程的HH-RLHF测试集中的4929个样本组成。训练集包含59310个样本;其中包括14814个来自Dolly,剩下的44496个来自HH-RLHF。
该数据集略大于Alpaca,并且根据我们的经验,稍微具有更高的质量,但只要遵循许可证的条款,就可以用于商业目的。
如前所述,在这个数据集中,对HH-RLHF数据进行了筛选。具体来说,我们首先用对话中的第一次发言,然后删除助理回答:
这样留下的样本看起来更像是遵循指示,而不是对话。
这个数据集是在MosaicML( https://www.mosaicml.com )开发的,其使用受CC BY-SA 3.0许可证的约束。
数据集中某些类别的材料包括以下来源的材料,根据CC BY-SA 3.0许可证授权:
维基百科(各种页面)-版权所有©维基百科编辑和贡献者。
Databricks( https://www.databricks.com )版权所有© Databricks