数据集:

HuggingFaceH4/databricks_dolly_15k

预印本库:

arxiv:2203.02155

许可:

cc-by-3.0
英文

Dolly_15K 数据集卡片

概要

databricks-dolly-15k 是一个开源数据集,由数千名 Databricks 员工在《 InstructGPT 》论文中概述的几个行为类别中生成的按照指示操作的记录组成,包括头脑风暴、分类、封闭QA、生成、信息提取、开放QA和摘要。

该数据集可用于任何目的,无论是学术还是商业,根据《 Creative Commons Attribution-ShareAlike 3.0 Unported License 》条款使用。

支持的任务:

  • 训练LLMs
  • 合成数据生成
  • 数据增强

语言:英语 版本:1.0

所有者:Databricks, Inc.

数据集概述

databricks-dolly-15k 是一组由数千名 Databricks 员工生成的15,000多条记录的语料库,用于使大型语言模型展示 ChatGPT 的神奇互动性。 Databricks 员工受邀在八个不同的指示类别中创建提示/回答对,包括《InstructGPT》论文中概述的七个类别,以及一个开放式的自由形式类别。参与者被教导避免使用来自网络上任何来源的信息,除了维基百科(对于特定的指令类别的子集),并明确指示避免在制定指示或回答时使用生成型AI。提供了每种行为的示例以激励相应类别的适当问题和指示类型。

在数据生成过程中的一半时间,参与者被给予回答其他参与者提出的问题的选项。他们被要求重新表述原始问题,并仅选择他们可以合理预期正确回答的问题。

对于某些类别,要求参与者提供从维基百科复制的参考文本。参考文本(在实际数据集中的上下文字段中表示)可能包含括号括起来的维基百科引用编号(例如[42]),我们建议用户在下游应用中删除这些引用。

预期用途

虽然在对大型语言模型进行指示微调时立即有价值,但作为一个人类生成的指示提示语料库,该数据集还为《自我指导》论文中概述的方法中的合成数据生成提供了宝贵的机会。例如,贡献者生成的提示可以作为少量样本提交给大型的开放式语言模型,以生成每个相应 InstructGPT 类别中数百万个指令示例的语料库。

同样,指令和回答都为数据增强提供了丰富的资源。可以使用改写模型重述每个提示或简短回答,将生成的文本与相应的已知样本关联起来。这种方法可能为数据集提供一种正则化形式,使得从这些合成数据集派生的模型能够呈现更强大的指示跟随行为。

数据集

收集目的

作为对开源的持续承诺的一部分,Databricks 开发了据我们所知,第一个开源、人类生成的指令语料库,专门用于使大型语言模型展示 ChatGPT 的神奇互动性。与其他仅限非商业使用的数据集不同,可以将此数据集用于任何目的,包括学术或商业应用。

来源

  • 人类生成数据:Databricks 员工受邀在八个不同的指示类别中创建提示/回答对。
  • 维基百科:对于需要注释员查询参考文本的指示类别(信息提取、封闭QA、摘要),贡献者为特定的指示类别的子集选择了来自维基百科的段落。对于如何选择目标段落,未向注释员提供任何指导。

注释员指南

为了创建记录,员工们获得了注释任务的简要描述,以及每种注释任务典型提示类型的示例。指南设计得简明,鼓励高任务完成率,可能以以牺牲具体和可靠地操作特定任务的注释规范为代价。买方要有所警惕。

每个类别的注释指南如下:

  • 创意写作:撰写一个需要创造性、开放式书面回答的问题或指示。该指示应该是合理向具有常识的人提问的,并且不需要搜索。在这个任务中,您的提示应给出非常具体的指示以供遵循。约束条件、指示、准则或要求都可以使用,越多越好。
  • 封闭QA:撰写一个问题或指示,需要基于来自维基百科的文本段落给出事实上正确的回答。问题可以复杂,可以涉及到人类级别的推理能力,但不应需要特殊知识。为此任务创建问题时,请在形式中同时包含问题文字和参考文本。
  • 开放QA:撰写一个问题,可以通过一般常识或最多一次搜索来回答。该任务要求关于世界大事的观点和事实,并未提供任何参考文本供参考。
  • 摘要:给出维基百科段落的摘要。请不要提出需要花费3-5分钟以上回答的问题。为此任务创建问题时,请在形式中同时包含问题文字和参考文本。
  • 信息提取:这些问题涉及阅读来自维基百科的段落,并从段落中提取信息。生成答案所需的所有内容(例如列表、关键词等)都应包含在段落中。为此任务创建问题时,请在形式中同时包含问题文字和参考文本。
  • 分类:这些提示包含要进行分类的实体的列表或示例,例如电影评论、产品等。在此任务中,正在考虑的文本或实体列表包含在提示中(例如,没有参考文本)。您可以选择任何分类的类别,越多越好。
  • 头脑风暴:针对要求大量列举例子的问题思考出很多例子。

个人信息或敏感数据

此数据集包含公共信息(例如来自维基百科的某些信息)。据我们所知,没有私人个人识别符或敏感信息。

语言

美式英语

已知限制

  • 维基百科是一个众包语料库,该数据集的内容可能反映了维基百科中发现的偏见、事实错误和话题焦点
  • 一些注释员可能不是以英语为母语
  • 注释员的人口统计信息和主题可能反映了 Databricks 员工的构成

许可证/归属

版权所有 (2023) Databricks, Inc. 此数据集是在 Databricks ( https://www.databricks.com ) 开发的,使用受 CC BY-SA 3.0 许可证约束。

数据集的某些类别的材料包括以下来源的材料,其受 CC BY-SA 3.0 许可证约束:

维基百科(各种页面)- https://www.wikipedia.org/ 版权 © 维基百科编辑和贡献者。