数据集:

codeparrot/codecomplex

英文

CodeComplex 数据集

数据集描述

CodeComplex 数据集包含了由人类程序员提交的 4,200 个 Java 代码,这些代码是在编程竞赛中使用的,并且由一组算法专家进行了复杂度标注。

如何使用

您可以使用以下两行代码加载和迭代遍历数据集:

数据结构

数据实例

数据字段

  • src:一个字符串特征,表示 Java 中的源代码。
  • complexity:一个字符串特征,表示程序的复杂度。
  • problem:一个字符串特征,表示问题名称。
  • from:一个字符串特征,表示问题的来源。

complexity 字段有 7 个类别,每个类别约有 500 个代码。这七个类别分别是 constant、linear、quadratic、cubic、log(n)、nlog(n) 和 NP-hard。

数据拆分

数据集只包含一个训练集。

数据集创建

作者首先从 CodeForces 收集了 Java 中的问题和解决方案代码,并由经验丰富的人工标注员进行了标记,以标记每个代码的时间复杂度。在标记完成后,他们使用不同的编程专家来验证人工标注员分配的每个数据的类别。

引用信息