数据集:
codeparrot/codecomplex
CodeComplex 数据集包含了由人类程序员提交的 4,200 个 Java 代码,这些代码是在编程竞赛中使用的,并且由一组算法专家进行了复杂度标注。
您可以使用以下两行代码加载和迭代遍历数据集:
complexity 字段有 7 个类别,每个类别约有 500 个代码。这七个类别分别是 constant、linear、quadratic、cubic、log(n)、nlog(n) 和 NP-hard。
数据集只包含一个训练集。
作者首先从 CodeForces 收集了 Java 中的问题和解决方案代码,并由经验丰富的人工标注员进行了标记,以标记每个代码的时间复杂度。在标记完成后,他们使用不同的编程专家来验证人工标注员分配的每个数据的类别。