数据集:
c-s-ale/dolly-15k-instruction-alpaca-format
注意:这是Databricks数据集的重新上传,原数据集链接为 here ,已修改为Alpaca格式,并删除了引文编号。
此工作不是我的原创作品,所有功劳归Databricks所有。
databricks-dolly-15k是由数千名Databricks员工生成的超过15000条记录的语料库,旨在使大型语言模型展示ChatGPT的互动性。 Databricks员工被邀请在八个不同的指令类别中创建提示/响应对,包括InstructGPT论文中概述的七个类别,以及一个开放的自由形式类别。 受访者被要求避免使用来自网络的任何信息,除了维基百科(用于特定的指令类别子集),并明确指示避免在制定指令或响应时使用生成AI。提供了每种行为的示例,以激发相应类别的问题和指令。
在数据生成过程中的中途,参与者有机会回答其他参与者提出的问题。他们被要求重新表述原始问题,并仅选择他们可以合理预期正确回答的问题。
对于某些类别,参与者被要求提供从维基百科复制的参考文本。参考文本(在实际数据集中的上下文字段中表示)可能包含括号内的维基百科引文编号(例如[42]),我们建议用户在下游应用中删除这些引文编号。
尽管作为调整大型语言模型指令的有价值数据,但由于该语料库是由人类生成的指令提示,该数据集还为Self-Instruct论文中提到的方法中的合成数据生成提供了有价值的机会。例如,可以将贡献者生成的提示作为少样本示例提交给大型开放式语言模型,以生成各个InstructGPT类别中数百万个指令示例的语料库。
同样,指令和响应都是数据增强的有利条件。可以使用释义模型重新陈述每个提示或简短响应,并将生成的文本与相应的真实样本关联起来。这种方法可能提供对数据集的一种正则化形式,可以使从这些合成数据集派生的模型在遵循指令的行为方面更加鲁棒。
作为我们持续致力于开源的一部分,Databricks开发了据我们所知,是第一个开源、人类生成的指令语料库,专门用于使大型语言模型展示ChatGPT的互动性。与其他只限于非商业使用的数据集不同,该数据集可用于任何目的,包括学术或商业应用,可进行修改和扩展。
为创建记录,员工收到了注释任务的简要描述,并且提供了每个注释任务类型的典型提示示例。指南故意简洁,以鼓励高任务完成率,可能会牺牲严格遵守具体任务具体化和可靠运作的注释规则。
每个类别的注释指南如下:
此数据集包含公开信息(例如维基百科的某些信息)。据我们所知,没有私人个人识别符或敏感信息。
美国英语
版权所有(2023年)Databricks公司。本数据集由Databricks( https://www.databricks.com )开发,使用受CC BY-SA 3.0许可的约束。
数据集中的某些类别的材料包括以下来源的材料,受CC BY-SA 3.0许可的约束:
维基百科(各个页面)- https://www.wikipedia.org/ 版权所有©维基百科编辑和贡献者。