数据集:

mosaicml/dolly_hhrlhf

语言:

en
英文

介绍"dolly_hhrlhf"数据集

该数据集是由 Databrick's dolly-15k 数据集和 Anthropic's HH-RLHF 的筛选子集组合而成。它还包括一个测试集,原始dolly数据集中没有提供。该测试集由从dolly中随机选择的200个样本以及通过筛选过程的HH-RLHF测试集中的4929个样本组成。训练集包含59310个样本;其中包括14814个来自Dolly,剩下的44496个来自HH-RLHF。

该数据集略大于Alpaca,并且根据我们的经验,稍微具有更高的质量,但只要遵循许可证的条款,就可以用于商业目的。

过滤流程

如前所述,在这个数据集中,对HH-RLHF数据进行了筛选。具体来说,我们首先用对话中的第一次发言,然后删除助理回答:

  • 使用单词"human","thank"或"sorry"
  • 问问题
  • 使用第一人称代词

这样留下的样本看起来更像是遵循指示,而不是对话。

许可证/归属

这个数据集是在MosaicML( https://www.mosaicml.com )开发的,其使用受CC BY-SA 3.0许可证的约束。

数据集中某些类别的材料包括以下来源的材料,根据CC BY-SA 3.0许可证授权:

维基百科(各种页面)-版权所有©维基百科编辑和贡献者。

Databricks( https://www.databricks.com )版权所有© Databricks