数据集:
codeparrot/github-jupyter-code-to-text
该数据集包含一系列Python代码序列,后跟一个说明其功能的文档字符串。它是通过从此 dataset 中的代码和文本对连接而构建的,这些代码和文本对原先是Jupyter笔记本中的代码和标记单元。
每个示例的内容如下:
[CODE] """ Explanation: [TEXT] End of explanation """ [CODE] """ Explanation: [TEXT] End of explanation """ ...
from datasets import load_dataset ds = load_dataset("codeparrot/github-jupyter-code-to-text", split="train")
Dataset({ features: ['repo_name', 'path', 'license', 'content'], num_rows: 47452 })