基于ChatGPT输出的10个精选数据集
2023年07月26日 由 Alex 发表
960678
0
目前为止,基于GPT-3.5和GPT-4的ChatGPT的威力已经触及到互联网的每一个角落,它也是硅谷最受欢迎的聊天机器人的驱动力。拥有超过1亿用户的OpenAI模型也吸引了研究界的关注。自GPT-4发布以来,AI研究人员一直在使用该模型的输出来训练他们自己的语言模型和数据集,以获得基准结果。
以下是为GPT4爱好者挑选的10个使用GPT-4输出进行训练的数据集!
Lima
Meta AI的研究人员发布了名为"LIMA:Less Is More for Alignment"的小型数据集,其中包含1000个示例。该研究表明,LIMA可以推动开发高效的LLM的研究前进。值得注意的是,研究人员证明,通过使用监督方法仅在这1000个示例上对65B的LLaMA模型进行微调,相比ChatGPT,可以实现具有竞争力的性能。
MiniGPT4
Vision-CAIR的研究人员推出了经过预先训练并与 Vicuna-7B 对齐的 MiniGPT4。更新后的模型显示了显著的GPU内存消耗降低,仅为12GB。研究人员提出了一种通过模型自身和ChatGPT生成高质量的图像文本对的新颖方法。这种方法允许创建一个紧凑而优越的数据集,总共包含3500对图像和文本。
Dolly
Dolly是由Databricks推出的一个具有突破性的开源项目,展示了将现有的、过时的开源LLM转变为类似于ChatGPT的系统的能力,以迅速遵循指令。这仅仅需要在单台机器上进行30分钟的训练过程,利用高质量的训练数据实现。
值得注意的是,Dolly中的基础模型仅包含60亿个参数,相比其他具有更多参数的模型而言这是较少的。
Code Alpaca
Code Alpaca项目旨在构建和分发专门用于代码生成而设计指令跟踪的Meta AI LLaMA模型。该存储库是基于斯坦福大学的Alpaca构建的,唯一的修改是用于训练的数据。训练方法与原始方法保持一致。
为了改进Code Alpaca模型,使用了7B和13B的LLaMA模型。然后,使用由Self-Instruct论文启发的技术生成的20,000个指令跟踪示例数据集对这些模型进行微调,同时进行了某些改进以获得更好的输出结果。
使用GPT4进行指令调优
GPT-4-LLM的主要目标是促进GPT-4生成的数据共享,这些数据可以通过监督学习和强化学习技术用于构建指令跟踪的LLM。
该项目将指令调优推向了LLM领域的边界,因为它是利用OpenAI的GPT-4功能生成专门为LLM微调而量身定制的指令跟踪数据的初步举措之一。值得注意的是,这一发展潜力有助于推动语言模型训练的最新技术进展。
LLaVA-Instruct-150K
LLaVA Visual Instruct 150K是使用GPT生成的一组多模态指令跟踪数据。该数据集旨在为视觉指令调优提供支持,以增强具有先进视觉和语言能力的大型多模态模型的发展,针对GPT-4视觉/语言框架。该数据集在视觉和语言交叉领域的研究中具有巨大的潜力,可以用于创建功能强大的多模态模型。
UltraChat
UltraChat提供由ChatGPT Turbo API提供支持的有价值的开源、大规模、多轮对话数据。为了优先保护隐私,数据收集过程不直接使用任何基于互联网的提示。此外,为了保持高水平的生成质量,采用了双API方法。
一个API扮演用户角色,生成查询,而另一个API则扮演生成回应的角色。这种方法确保了可靠的对话生成过程,推动了会话型AI的进步,同时也优先考虑隐私和数据完整性。
GPTeacher
GPTeacher是由GPT-4生成的模块化数据集的集合,包括General-Instruct(通用指令)、Roleplay-Instruct(角色扮演指令)、Code-Instruct(代码指令)和Toolformer(工具形态)。每个数据集都有特定的用途,同时它们共同形成了研究人员的宝贵资源。凭借GPT-4在数据生成方面的能力,这些数据集展示了模型的多功能性,对语言建模领域做出了贡献。
ShareGPT
通过公共API共享的70,000个用户对话构成了开源聊天机器人Vicuna-13B的基础数据集。该数据集基于ShareGPT的开源Chrome扩展程序,用户在OpenAI引入该聊天机器人功能之前使用该扩展程序分享他们的ChatGPT对话。
HC3
HC3(Human ChatGPT Comparison Corpus)数据集是由ChatGPT用户生成的大约40,000个问题及其相应的回答的广泛集合。
该数据集的主要目的是对比分析ChatGPT的回答与人类生成的答案。问题的范围涵盖了开放领域、金融、医疗、法律和心理等多个领域。
来源:https://analyticsindiamag.com/10-brilliant-datasets-based-on-chatgpt-outputs/