数据集:

notional/notional-python

语言:

py

计算机处理:

monolingual

大小:

10K<n<100K

语言创建人:

found

批注创建人:

no-annotation

源数据集:

original
英文

notional-python 数据集介绍

数据集摘要

notional-python 数据集包含来自Google Bigquery Github数据集的100个知名存储库的Python代码文件。该数据集的创建是为了测试编程语言模型的能力。点击 our repo 了解使用notional-python数据集进行模型评估的详情。

语言

Python

数据集创建

策划理由

notional-python 数据集旨在为测试机器生成Python代码的能力提供数据集。

数据源

初始数据收集和归一化

过滤了来自 Google Bigquery Github data 的代码以获得数据。为了提高数据集的质量,只有满足以下条件的Python代码文件才被添加到数据集中:

  • 代码具有超过60%的可执行行数
  • 代码具有逻辑,不是配置文件或仅包含注释的文件
  • 代码具有超过30%的属性声明行数(例如:某些文件仅包含类名及其类属性,通常用于项目的配置,这些文件未被选中)
  • 代码中不包含 TODO 和 FIXME 。
数据源的语言生产者是谁?

语言生产者是 GitHub 的用户。