数据集:

unaidedelf87777/openapi-function-invocations-25k

英文

公告

我们很高兴地宣布,我们目前正在对MPT-7b和MPT-30b进行优化,这是由MosaicML训练的先进AI模型。我们正在利用我们的AI函数调用数据集来增强它们的编程能力,并提高它们对自然语言提示进行解释和准确响应的能力。

这些优化后的MPT-7b和MPT-30b版本即将发布。它们被设计为提供更深入、更直观的AI辅助编程任务交互。

另外,我们已经准备了适用于MPT-30b、MPT-7b和GPT-Neo-X分词器的JSONL文件。这些train和test集位于数据文件夹中,旨在帮助您进行机器学习实验和模型评估。

我们迫不及待地想看到您将如何使用这些资源,并期待您的反馈。敬请关注更多更新!

AI函数调用数据集

欢迎使用我们的AI函数调用数据集,这是一个经过合成构建的集合,旨在教授AI模型如何根据自然语言提示正确调用函数。在使用已经具备扎实的编程概念和原则理解能力的模型时,该数据集特别有效。

数据集构建

这个数据集的构建过程包括系统化的手动提取和AI辅助合成。其中使用的函数定义来自OpenAPI(以前是Swagger)API规范。OpenAPI是一种用于描述、生成、消费和可视化RESTful web服务的机器可读接口文件的规范。我们从 APIsGuru 这个开源项目中获取了API规范,该项目收集并分享来自全球各地的机器可读API定义。

在提取函数定义之后,我们利用OpenAI的GPT-3.5-turbo模型基于给定的函数定义生成一系列的响应。生成过程是在预定义的提示的指导下进行的,您可以在 here 中找到这个提示。该提示用来指导AI模型的响应方式和结构。

然后,我们系统地将模型的响应进行格式化,并作为单独的条目包含在数据集中。每个条目包括模型使用的函数定义、生成的自然语言提示、基于提示推断出的函数调用、示例函数响应以及基于这个响应的模型预期回复。

数据集结构

数据集中的每个条目都是一个人工合成的JSON对象,包含以下组件:

  • function_definition_used :对模型用作生成其他组件参考的原始函数定义的重印。其中包含有关函数名称、描述和参数的详细信息。
  • Prompt_to_call_function :由模型设计的一个自然语言请求,旨在暗示使用特定的函数。
  • Function_call_from_model :基于提示由模型生成的函数调用。
  • function_response :基于函数调用参数的模拟API响应。
  • message_from_model_based_on_function_response :基于函数响应的模型预期用户的回复。

数据集格式为CSV文件,每一行代表一个独特的函数调用场景。数据集共包含25000个示例。

限制

该数据集旨在教授AI模型如何根据自然语言提示正确调用函数。它不指导模型何时或为何调用函数,也不涵盖在单个提示中调用多个函数等高级场景。在使用该数据集时,请考虑这些限制。

如何加载数据集

您可以使用Hugging Face Datasets库加载数据集。以下是使用该库加载数据集的简单指南。

首先,使用pip安装Hugging Face Datasets库:

pip install datasets

然后,使用load_dataset函数加载数据集。

from datasets import load_dataset

dataset = load_dataset('unaidedelf87777/openapi-function-invocation-25k')

然后,您可以通过dataset变量访问数据集。

引用

如果您在研究中发现这个数据集对您有用,请按以下方式引用它:

@misc{ai_function_invocation,
  author = {unaidedelf87777},
  title = {AI Function Invocation Dataset},
  year = {2023},
  publisher = {Hugging Face},
  howpublished = {\url{https://huggingface.co/datasets/unaidedelf87777/openapi-function-invocation-25k}},
  note = {Function definitions were extracted from OpenAPI specs provided by APIsGuru (https://github.com/APIs-guru/openapi-directory.git)}
}

希望您在项目和研究中发现这个数据集有用!如果有任何问题或反馈,请随时与我们联系。