数据集:
lucasmccabe-lmi/oig_small_chip2_python
从 LAION's Open Instruction Generalist (OIG) dataset 中,我们使用一段包含有关 Python 代码生成的 4775 个提示片段。OIG 文本元素被格式化为“人类”和“机器人”代理之间的对话片段。代码生成的提示从最初的“人类”代理声明中解析出来,以及“机器人”代理的回应结果。然后,我们根据原始的Alpaca数据集的格式重新格式化文本/响应对;也就是说,指令/输入/输出的三元组。在指令字段未指定代码语言的情况下,我们在输入字段中提供“用Python编写代码”。否则,将保留输入字段为空。
OIG数据集由LAION准备,并在Apache 2.0许可下发布。
数字: