我们很高兴地宣布,我们目前正在对MPT-7b和MPT-30b进行优化,这是由MosaicML训练的先进AI模型。我们正在利用我们的AI函数调用数据集来增强它们的编程能力,并提高它们对自然语言提示进行解释和准确响应的能力。
这些优化后的MPT-7b和MPT-30b版本即将发布。它们被设计为提供更深入、更直观的AI辅助编程任务交互。
另外,我们已经准备了适用于MPT-30b、MPT-7b和GPT-Neo-X分词器的JSONL文件。这些train和test集位于数据文件夹中,旨在帮助您进行机器学习实验和模型评估。
我们迫不及待地想看到您将如何使用这些资源,并期待您的反馈。敬请关注更多更新!
欢迎使用我们的AI函数调用数据集,这是一个经过合成构建的集合,旨在教授AI模型如何根据自然语言提示正确调用函数。在使用已经具备扎实的编程概念和原则理解能力的模型时,该数据集特别有效。
这个数据集的构建过程包括系统化的手动提取和AI辅助合成。其中使用的函数定义来自OpenAPI(以前是Swagger)API规范。OpenAPI是一种用于描述、生成、消费和可视化RESTful web服务的机器可读接口文件的规范。我们从 APIsGuru 这个开源项目中获取了API规范,该项目收集并分享来自全球各地的机器可读API定义。
在提取函数定义之后,我们利用OpenAI的GPT-3.5-turbo模型基于给定的函数定义生成一系列的响应。生成过程是在预定义的提示的指导下进行的,您可以在 here 中找到这个提示。该提示用来指导AI模型的响应方式和结构。
然后,我们系统地将模型的响应进行格式化,并作为单独的条目包含在数据集中。每个条目包括模型使用的函数定义、生成的自然语言提示、基于提示推断出的函数调用、示例函数响应以及基于这个响应的模型预期回复。
数据集中的每个条目都是一个人工合成的JSON对象,包含以下组件:
数据集格式为CSV文件,每一行代表一个独特的函数调用场景。数据集共包含25000个示例。
该数据集旨在教授AI模型如何根据自然语言提示正确调用函数。它不指导模型何时或为何调用函数,也不涵盖在单个提示中调用多个函数等高级场景。在使用该数据集时,请考虑这些限制。
您可以使用Hugging Face Datasets库加载数据集。以下是使用该库加载数据集的简单指南。
首先,使用pip安装Hugging Face Datasets库:
pip install datasets
然后,使用load_dataset函数加载数据集。
from datasets import load_dataset dataset = load_dataset('unaidedelf87777/openapi-function-invocation-25k')
然后,您可以通过dataset变量访问数据集。
如果您在研究中发现这个数据集对您有用,请按以下方式引用它:
@misc{ai_function_invocation, author = {unaidedelf87777}, title = {AI Function Invocation Dataset}, year = {2023}, publisher = {Hugging Face}, howpublished = {\url{https://huggingface.co/datasets/unaidedelf87777/openapi-function-invocation-25k}}, note = {Function definitions were extracted from OpenAPI specs provided by APIsGuru (https://github.com/APIs-guru/openapi-directory.git)} }
希望您在项目和研究中发现这个数据集有用!如果有任何问题或反馈,请随时与我们联系。