数据集:

c-s-ale/dolly-15k-instruction-alpaca-format

语言:

en

大小:

10K<n<100K

许可:

cc-by-3.0
英文

Databricks Dolly 15k数据集,已删除引文并以Alpaca格式提供

注意:这是Databricks数据集的重新上传,原数据集链接为 here ,已修改为Alpaca格式,并删除了引文编号。

此工作不是我的原创作品,所有功劳归Databricks所有。

数据集概览

databricks-dolly-15k是由数千名Databricks员工生成的超过15000条记录的语料库,旨在使大型语言模型展示ChatGPT的互动性。 Databricks员工被邀请在八个不同的指令类别中创建提示/响应对,包括InstructGPT论文中概述的七个类别,以及一个开放的自由形式类别。 受访者被要求避免使用来自网络的任何信息,除了维基百科(用于特定的指令类别子集),并明确指示避免在制定指令或响应时使用生成AI。提供了每种行为的示例,以激发相应类别的问题和指令。

在数据生成过程中的中途,参与者有机会回答其他参与者提出的问题。他们被要求重新表述原始问题,并仅选择他们可以合理预期正确回答的问题。

对于某些类别,参与者被要求提供从维基百科复制的参考文本。参考文本(在实际数据集中的上下文字段中表示)可能包含括号内的维基百科引文编号(例如[42]),我们建议用户在下游应用中删除这些引文编号。

预期用途

尽管作为调整大型语言模型指令的有价值数据,但由于该语料库是由人类生成的指令提示,该数据集还为Self-Instruct论文中提到的方法中的合成数据生成提供了有价值的机会。例如,可以将贡献者生成的提示作为少样本示例提交给大型开放式语言模型,以生成各个InstructGPT类别中数百万个指令示例的语料库。

同样,指令和响应都是数据增强的有利条件。可以使用释义模型重新陈述每个提示或简短响应,并将生成的文本与相应的真实样本关联起来。这种方法可能提供对数据集的一种正则化形式,可以使从这些合成数据集派生的模型在遵循指令的行为方面更加鲁棒。

数据集

收集目的

作为我们持续致力于开源的一部分,Databricks开发了据我们所知,是第一个开源、人类生成的指令语料库,专门用于使大型语言模型展示ChatGPT的互动性。与其他只限于非商业使用的数据集不同,该数据集可用于任何目的,包括学术或商业应用,可进行修改和扩展。

来源

  • 人类生成的数据:邀请Databricks员工在八个不同的指令类别中创建提示/响应对。
  • 维基百科:对于需要参与者咨询参考文本(信息提取,封闭型问答,摘要)的指令类别,贡献者从维基百科中选择了部分子集的段落。未向标注者提供有关如何选择目标段落的指导。

注释者指南

为创建记录,员工收到了注释任务的简要描述,并且提供了每个注释任务类型的典型提示示例。指南故意简洁,以鼓励高任务完成率,可能会牺牲严格遵守具体任务具体化和可靠运作的注释规则。

每个类别的注释指南如下:

  • 创意写作:撰写一个需要创造性、开放式书面回答的问题或指令。该指令应合理地向具有一般世界知识的人提问,并且不应需要搜索。在此任务中,您的提示应给出非常具体的指示。约束条件、指示、指南或要求都可以,越多越好。
  • 封闭型问答:撰写一个需要基于维基百科文本的事实正确的回答的问题或指令。问题可以复杂,可以涉及到人类级别的推理能力,但不应需要特殊知识。为了对这个任务创建一个问题,请同时包含问题的文本和参考文本。
  • 开放型问答:撰写一个可以使用一般世界知识或最多一次搜索来回答的问题。此任务要求对世界上的观点和事实提供回答,不提供任何用于参考的文本。
  • 摘要:给出维基百科段落的摘要。请不要提出需要超过3-5分钟回答的问题。为了对这个任务创建一个问题,请同时包含问题的文本和参考文本。
  • 信息提取:这些问题涉及阅读维基百科的段落,并从段落中提取信息。生成答案所需的一切(例如列表、关键字等)都应包含在段落中。为了对这个任务创建一个问题,请同时包含问题的文本和参考文本。
  • 分类:这些提示包含要分类的实体的列表或示例,例如电影评论、产品等。在此任务中,要考虑的文本或实体列表包含在提示中(即没有参考文本)。您可以选择任何分类,多样性越大越好。
  • 头脑风暴:针对提出要求头脑风暴的问题,想出许多例子作为回答。

个人或敏感数据

此数据集包含公开信息(例如维基百科的某些信息)。据我们所知,没有私人个人识别符或敏感信息。

语言

美国英语

已知限制

  • 维基百科是一个众包的语料库,该数据集的内容可能反映了维基百科中存在的偏见、事实错误和话题关注点
  • 某些注释者可能不是以英语为母语
  • 注释者的人口统计和主题可能反映了Databricks员工的构成

许可/归属

版权所有(2023年)Databricks公司。本数据集由Databricks( https://www.databricks.com )开发,使用受CC BY-SA 3.0许可的约束。

数据集中的某些类别的材料包括以下来源的材料,受CC BY-SA 3.0许可的约束:

维基百科(各个页面)- https://www.wikipedia.org/ 版权所有©维基百科编辑和贡献者。