数据集:

codeparrot/github-jupyter-code-to-text

英文

数据集描述

该数据集包含一系列Python代码序列,后跟一个说明其功能的文档字符串。它是通过从此 dataset 中的代码和文本对连接而构建的,这些代码和文本对原先是Jupyter笔记本中的代码和标记单元。

每个示例的内容如下:

[CODE]
"""
Explanation: [TEXT]
End of explanation
"""
[CODE]
"""
Explanation: [TEXT]
End of explanation
"""
...

如何使用它

from datasets import load_dataset

ds = load_dataset("codeparrot/github-jupyter-code-to-text", split="train")
Dataset({
    features: ['repo_name', 'path', 'license', 'content'],
    num_rows: 47452
})