数据集:
HuggingFaceH4/databricks_dolly_15k
预印本库:
arxiv:2203.02155许可:
cc-by-3.0databricks-dolly-15k 是一个开源数据集,由数千名 Databricks 员工在《 InstructGPT 》论文中概述的几个行为类别中生成的按照指示操作的记录组成,包括头脑风暴、分类、封闭QA、生成、信息提取、开放QA和摘要。
该数据集可用于任何目的,无论是学术还是商业,根据《 Creative Commons Attribution-ShareAlike 3.0 Unported License 》条款使用。
支持的任务:
语言:英语 版本:1.0
所有者:Databricks, Inc.
databricks-dolly-15k 是一组由数千名 Databricks 员工生成的15,000多条记录的语料库,用于使大型语言模型展示 ChatGPT 的神奇互动性。 Databricks 员工受邀在八个不同的指示类别中创建提示/回答对,包括《InstructGPT》论文中概述的七个类别,以及一个开放式的自由形式类别。参与者被教导避免使用来自网络上任何来源的信息,除了维基百科(对于特定的指令类别的子集),并明确指示避免在制定指示或回答时使用生成型AI。提供了每种行为的示例以激励相应类别的适当问题和指示类型。
在数据生成过程中的一半时间,参与者被给予回答其他参与者提出的问题的选项。他们被要求重新表述原始问题,并仅选择他们可以合理预期正确回答的问题。
对于某些类别,要求参与者提供从维基百科复制的参考文本。参考文本(在实际数据集中的上下文字段中表示)可能包含括号括起来的维基百科引用编号(例如[42]),我们建议用户在下游应用中删除这些引用。
虽然在对大型语言模型进行指示微调时立即有价值,但作为一个人类生成的指示提示语料库,该数据集还为《自我指导》论文中概述的方法中的合成数据生成提供了宝贵的机会。例如,贡献者生成的提示可以作为少量样本提交给大型的开放式语言模型,以生成每个相应 InstructGPT 类别中数百万个指令示例的语料库。
同样,指令和回答都为数据增强提供了丰富的资源。可以使用改写模型重述每个提示或简短回答,将生成的文本与相应的已知样本关联起来。这种方法可能为数据集提供一种正则化形式,使得从这些合成数据集派生的模型能够呈现更强大的指示跟随行为。
作为对开源的持续承诺的一部分,Databricks 开发了据我们所知,第一个开源、人类生成的指令语料库,专门用于使大型语言模型展示 ChatGPT 的神奇互动性。与其他仅限非商业使用的数据集不同,可以将此数据集用于任何目的,包括学术或商业应用。
为了创建记录,员工们获得了注释任务的简要描述,以及每种注释任务典型提示类型的示例。指南设计得简明,鼓励高任务完成率,可能以以牺牲具体和可靠地操作特定任务的注释规范为代价。买方要有所警惕。
每个类别的注释指南如下:
此数据集包含公共信息(例如来自维基百科的某些信息)。据我们所知,没有私人个人识别符或敏感信息。
美式英语
版权所有 (2023) Databricks, Inc. 此数据集是在 Databricks ( https://www.databricks.com ) 开发的,使用受 CC BY-SA 3.0 许可证约束。
数据集的某些类别的材料包括以下来源的材料,其受 CC BY-SA 3.0 许可证约束:
维基百科(各种页面)- https://www.wikipedia.org/ 版权 © 维基百科编辑和贡献者。