数据集:

Fraser/python-lines

英文

从数据集 CodeSearchNet 中获取的单行Python代码数据集。

上下文

此数据集可用于通过测试多少随机/中间潜变量点可以贪心地解码为有效的Python代码来检查变分自动编码器潜空间的有效性。

内容

每行都有一行可解析的源代码。 {'text': '{python源代码行}'}

大多数行的长度小于100个字符,所有行都小于125个字符。

包含260万行。

所有代码都可以解析为Python3 ast。