数据集:

HuggingFaceH4/code_evaluation_prompts

语言:

en

大小:

n<1K
英文

H4 代码评估提示的数据集卡片

这是一个用于评估代码指令模型的筛选后的提示集。它包含了各种语言和任务类型。目前我们使用ChatGPT(GPT-3.5-turbo)生成了这些提示,所以我们建议仅将其用于定性评估,而不是用来训练模型。

这些数据的生成类似于类似 CodeAlpaca 的内容,你可以下载 here ,但我们的目标是使这些任务更具挑战性和更加精心策划。

希望这两个因素能够提供有意义的评估结果,但这不足以训练一个完整的模型。

数据对应以下内容:

  • 20个简单的Python指令跟随任务,
  • 20个中级的Python指令跟随任务,
  • 10个高级的Python指令跟随任务,
  • 15个Python机器学习问题,
  • 20个C++指令跟随任务,
  • 10个HTML指令跟随任务,
  • 20个其他语言的代码反馈问题。

或者按照每种编程语言划分:

  • Python: 81,
  • C++: 21,
  • HTML: 10,
  • Ruby: 1,
  • Bash: 1,
  • MATLAB: 1,
  • React: 1,
  • Scala: 1,
  • JavaScript: 1,
  • Java: 1,
  • PHP: 1.

或者按照指令类型划分:

  • 代码补全/指令跟随: 95,
  • 错误修复: 20.

要获取任务的当前信息,你可以使用以下代码片段:

from datasets import load_dataset
d = load_dataset("HuggingFaceH4/code_evaluation_prompts")
language_list = d['train']['language']
language_count = {ele:language_list.count(ele) for ele in language_list}

类似的代码可以针对指令类型(代码生成与错误修复)运行。

有兴趣做贡献吗?请通过具体的编程语言和问题内容开启一个PR(拉取请求)。

这里是用于启动回复的ChatGPT提示(然后进行筛选),2023年5月3日版本:

  • 生成一系列Python编程问题的指令(格式为{"prompt": instruction})
  • 这些非常有用,你能否生成最后几个最难和最Pythonic的问题?
  • 走出一步,你能为我生成20个不需要太难的,但以机器学习为重点的问题吗?(例如PyTorch和Jax的混合)
  • 生成一系列C++编程问题的指令(格式为{"prompt": instruction})
  • 你能否生成5个指令示例,具有相同的格式{"prompt": text},其中指令中的代码有一个错误,并且你希望对你编写的代码提出反馈?