数据集:
databricks/databricks-dolly-15k
databricks-dolly-15k 是一个开源数据集,包含数千名 Databricks 员工在《 InstructGPT 》论文中概述的几个行为类别中生成的遵循指令记录。这些行为类别包括头脑风暴、分类、封闭型问题回答、生成、信息提取、开放型问题回答和摘要。
该数据集可以用于任何目的,无论是学术研究还是商业应用,依据《 Creative Commons Attribution-ShareAlike 3.0 Unported License 》的条款。
支持的任务:
语言:英文版本:1.0
所有者:Databricks, Inc.
databricks-dolly-15k 是由数千名 Databricks 员工生成的 15,000 多个记录的语料库,旨在使大型语言模型展现出 ChatGPT 的神奇互动性。Databricks 员工被邀请在八个不同的指令类别中创建提示 / 响应对,其中包括《InstructGPT》论文中概述的七个类别,以及一个开放的自由形式类别。参与者被要求避免使用来自网络的任何信息,除了维基百科(适用于特定的指令类别的子集),并且明确被告知在制定指令或回复时避免使用生成型 AI。为了激励每个类别中的问题和指令的类型,提供了每个行为类别的示例。
在数据生成过程中的中途,参与者有机会回答其他参与者提出的问题。他们被要求重新表达原始问题,并只选择他们可以合理预期正确回答的问题。
对于某些类别,参与者被要求提供从维基百科复制的参考文本。参考文本(在实际数据集中通过 context 字段表示)可能包含用方括号括起来的维基百科引用编号(例如 [42] ),我们建议用户在后续应用中删除这些引用。
databricks-dolly-15k 是一个包含人类生成的指令提示的语料库,可立即用于调整大型语言模型的指令。此外,作为自我指导论文中所述方法的合成数据生成的有价值机会。例如,贡献者生成的提示可以作为少样本示例提交给一个大型开放语言模型,以生成数百万个各自的 InstructGPT 类别指令的语料库。
同样,指令和响应都提供了数据增强的丰富领域。可以使用释义模型重述每个提示或短回复,将结果文本与相应的真实样本关联起来。这种方法可能为数据集提供一种正则化形式,可以允许从这些合成数据集中派生的模型具有更强大的指令遵循行为。
作为对开源的持续承诺的一部分,Databricks 开发了据我们所知,首个开源的、由人类生成的指令语料库,专门设计用于使大型语言模型展现出 ChatGPT 的神奇互动性。与只限于非商业使用的其他数据集不同,可以使用、修改和扩展此数据集,包括学术或商业应用。
为了创建一条记录,员工被提供了注释任务的简要描述以及每个注释任务的典型提示类型的示例。指南经过精练设计,以鼓励高完成率,可能以勉强遵守注释规范为代价,这些规范明确并可靠地运营具体任务。 买方自负责任。
各个类别的注释指南如下:
该数据集包含公共信息(例如,一些来自维基百科的信息)。据我们所知,未含有私人身份标识符或敏感信息。
美式英语
@online{DatabricksBlog2023DollyV2, author = {Mike Conover and Matt Hayes and Ankit Mathur and Jianwei Xie and Jun Wan and Sam Shah and Ali Ghodsi and Patrick Wendell and Matei Zaharia and Reynold Xin}, title = {Free Dolly: Introducing the World's First Truly Open Instruction-Tuned LLM}, year = {2023}, url = {https://www.databricks.com/blog/2023/04/12/dolly-first-open-commercially-viable-instruction-tuned-llm}, urldate = {2023-06-30} }
版权所有(2023年)Databricks, Inc. 此数据集是在 Databricks ( https://www.databricks.com )开发的,并受 CC BY-SA 3.0 许可证约束。
数据集中的某些类别的资料包括来自以下来源的资料,受 CC BY-SA 3.0 许可证的约束:
维基百科(各个页面)- https://www.wikipedia.org/ 版权所有维基百科编辑和贡献者。