这是一个用于评估代码指令模型的筛选后的提示集。它包含了各种语言和任务类型。目前我们使用ChatGPT(GPT-3.5-turbo)生成了这些提示,所以我们建议仅将其用于定性评估,而不是用来训练模型。
这些数据的生成类似于类似 CodeAlpaca 的内容,你可以下载 here ,但我们的目标是使这些任务更具挑战性和更加精心策划。
希望这两个因素能够提供有意义的评估结果,但这不足以训练一个完整的模型。
数据对应以下内容:
或者按照每种编程语言划分:
或者按照指令类型划分:
要获取任务的当前信息,你可以使用以下代码片段:
from datasets import load_dataset d = load_dataset("HuggingFaceH4/code_evaluation_prompts") language_list = d['train']['language'] language_count = {ele:language_list.count(ele) for ele in language_list}
类似的代码可以针对指令类型(代码生成与错误修复)运行。
有兴趣做贡献吗?请通过具体的编程语言和问题内容开启一个PR(拉取请求)。
这里是用于启动回复的ChatGPT提示(然后进行筛选),2023年5月3日版本: