数据集:

databricks/databricks-dolly-15k

英文

摘要

databricks-dolly-15k 是一个开源数据集,包含数千名 Databricks 员工在《 InstructGPT 》论文中概述的几个行为类别中生成的遵循指令记录。这些行为类别包括头脑风暴、分类、封闭型问题回答、生成、信息提取、开放型问题回答和摘要。

该数据集可以用于任何目的,无论是学术研究还是商业应用,依据《 Creative Commons Attribution-ShareAlike 3.0 Unported License 》的条款。

支持的任务:

  • LLMs 训练
  • 合成数据生成
  • 数据增强

语言:英文版本:1.0

所有者:Databricks, Inc.

数据集概述

databricks-dolly-15k 是由数千名 Databricks 员工生成的 15,000 多个记录的语料库,旨在使大型语言模型展现出 ChatGPT 的神奇互动性。Databricks 员工被邀请在八个不同的指令类别中创建提示 / 响应对,其中包括《InstructGPT》论文中概述的七个类别,以及一个开放的自由形式类别。参与者被要求避免使用来自网络的任何信息,除了维基百科(适用于特定的指令类别的子集),并且明确被告知在制定指令或回复时避免使用生成型 AI。为了激励每个类别中的问题和指令的类型,提供了每个行为类别的示例。

在数据生成过程中的中途,参与者有机会回答其他参与者提出的问题。他们被要求重新表达原始问题,并只选择他们可以合理预期正确回答的问题。

对于某些类别,参与者被要求提供从维基百科复制的参考文本。参考文本(在实际数据集中通过 context 字段表示)可能包含用方括号括起来的维基百科引用编号(例如 [42] ),我们建议用户在后续应用中删除这些引用。

预期用途

databricks-dolly-15k 是一个包含人类生成的指令提示的语料库,可立即用于调整大型语言模型的指令。此外,作为自我指导论文中所述方法的合成数据生成的有价值机会。例如,贡献者生成的提示可以作为少样本示例提交给一个大型开放语言模型,以生成数百万个各自的 InstructGPT 类别指令的语料库。

同样,指令和响应都提供了数据增强的丰富领域。可以使用释义模型重述每个提示或短回复,将结果文本与相应的真实样本关联起来。这种方法可能为数据集提供一种正则化形式,可以允许从这些合成数据集中派生的模型具有更强大的指令遵循行为。

数据集

收集目的

作为对开源的持续承诺的一部分,Databricks 开发了据我们所知,首个开源的、由人类生成的指令语料库,专门设计用于使大型语言模型展现出 ChatGPT 的神奇互动性。与只限于非商业使用的其他数据集不同,可以使用、修改和扩展此数据集,包括学术或商业应用。

来源

  • 人类生成的数据:Databricks 员工被邀请在八个不同的指令类别中创建提示 / 响应对。
  • 维基百科:对于需要注释器参考文本的指令类别(信息提取、封闭型 QA、摘要),贡献者选择了维基百科中的段落。对于如何选择目标段落,未给予注释者任何指导。

注释者指南

为了创建一条记录,员工被提供了注释任务的简要描述以及每个注释任务的典型提示类型的示例。指南经过精练设计,以鼓励高完成率,可能以勉强遵守注释规范为代价,这些规范明确并可靠地运营具体任务。 买方自负责任。

各个类别的注释指南如下:

  • 创意写作:编写一个需要创造性、多样性的书面响应的问题或指令。指令应合理要求具有一般世界知识的人,并且不需要搜索。在此任务中,您的提示应给出非常具体的指令。约束、指导、指引或要求都可以,并且越多越好。
  • 封闭型 QA:编写一个问题或指令,需要根据维基百科的一段文字给出与事实相符的回答。问题可以复杂,可以涉及到人类级别的推理能力,但不应需要特殊知识。为了创建此任务的问题,请在形式中同时包含问题文本和参考文本。
  • 开放型 QA:编写一个问题,可以使用一般世界知识或最多一次搜索来回答。该任务要求对世界上的观点和事实提供问题,并不提供任何参考文本供参考。
  • 摘要:给出维基百科段落的摘要。请不要提出需要花费超过 3-5 分钟回答的问题。为了创建此任务的问题,请在形式中同时包含问题文本和参考文本。
  • 信息提取:这些问题涉及阅读维基百科的段落,并从段落中提取信息。生成答案所需的所有内容(例如列表、关键词等)都应包含在段落中。为了创建此任务的问题,请在形式中同时包括问题文本和参考文本。
  • 分类:这些提示包含要进行分类的实体的列表或示例,例如电影评论、产品等。在此任务中,要考虑的文本或实体列表包含在提示中(例如,没有参考文本)。您可以选择任何分类,越多样化,越好。
  • 头脑风暴:根据提出的问题,构思出许多示例。

个人或敏感数据

该数据集包含公共信息(例如,一些来自维基百科的信息)。据我们所知,未含有私人身份标识符或敏感信息。

语言

美式英语

已知限制

  • 维基百科是一个众包语料库,该数据集的内容可能反映了维基百科中存在的偏见、事实错误和主题重点
  • 一些注释者可能不是以英语为母语的人
  • 注释者的人口统计数据和主题可能反映了 Databricks 员工的构成

引用

@online{DatabricksBlog2023DollyV2,
    author    = {Mike Conover and Matt Hayes and Ankit Mathur and Jianwei Xie and Jun Wan and Sam Shah and Ali Ghodsi and Patrick Wendell and Matei Zaharia and Reynold Xin},
    title     = {Free Dolly: Introducing the World's First Truly Open Instruction-Tuned LLM},
    year      = {2023},
    url       = {https://www.databricks.com/blog/2023/04/12/dolly-first-open-commercially-viable-instruction-tuned-llm},
    urldate   = {2023-06-30}
}

许可证 / 归属

版权所有(2023年)Databricks, Inc. 此数据集是在 Databricks ( https://www.databricks.com )开发的,并受 CC BY-SA 3.0 许可证约束。

数据集中的某些类别的资料包括来自以下来源的资料,受 CC BY-SA 3.0 许可证的约束:

维基百科(各个页面)- https://www.wikipedia.org/ 版权所有维基百科编辑和贡献者。