数据集:
codeparrot/github-jupyter-code-to-text
该数据集包含一系列Python代码序列,后跟一个说明其功能的文档字符串。它是通过从此 dataset 中的代码和文本对连接而构建的,这些代码和文本对原先是Jupyter笔记本中的代码和标记单元。
每个示例的内容如下:
[CODE]
"""
Explanation: [TEXT]
End of explanation
"""
[CODE]
"""
Explanation: [TEXT]
End of explanation
"""
...
from datasets import load_dataset
ds = load_dataset("codeparrot/github-jupyter-code-to-text", split="train")
Dataset({
features: ['repo_name', 'path', 'license', 'content'],
num_rows: 47452
})