数据集:

nuprl/MultiPL-E-synthetic-solutions

语言:

en

许可:

openrail
英文

数据集卡片

这是一个包含对HumanEval和MBPP代码生成基准的部分解答的数据集,翻译成了18种以上的编程语言。原始的基准问题是用Python编写的,我们按照以下方式构建了数据集:

  • 我们使用MultiPL-E将提示信息翻译成新的语言;
  • 我们使用code-davinci-002在温度0.8下生成每个问题的200个完成方案;
  • 我们为每个问题-语言对选择一个有效的解决方案(如果存在)。
  • This notebook 执行了上述步骤。

    请注意,由于code-davinci-002无法对每个问题生成正确的解决方案,因此该数据集不包含每个问题-语言对的解决方案。