概要
这是一份由Google Cloud翻译完成的泰语??指导数据集,该数据集是从斯坦福大学发布的经过清洗的原始Alpaca数据集翻译而来,包含了由OpenAI的text-davinci-003引擎生成的52,000个指令和演示。该指导数据可用于进行语言模型的指导调优,使语言模型更好地遵循指令。
在原始发布的数据中,已经发现并在这个数据集中进行了修复以下问题:
幻觉: 原始数据集中的许多指令引用了互联网上的数据,导致GPT3产生了幻觉式的答案。 合并的指令: 在原始数据集中,有许多指令被合并在一起。 空输出: 原始数据集中的一些条目输出为空。 空代码示例: 原始数据集中的一些描述缺少代码示例,使得理解代码的预期行为变得困难。 生成图像的指令: 一些原始数据集中的描述包含生成图像的指令,这显然是不可能的。 N/A输出: 原始数据集中的一些代码片段输出为N/A。 输入字段不一致: 原始数据集在输入字段为空时的使用不一致。 错误答案: 原始数据集中的一些指令/问题的答案是错误的。据估计,大约80%的数学问题的答案是错误的。 荒诞/不清晰的指令: 许多指令不清晰,我们对非实际意义的指令进行澄清(或重新编写)。那些不太清晰,但可以推断出意思的指令不会被改变。 多余的转义和控制字符: 原始数据集中有几个条目有多余的转义和控制字符。 原始Alpaca数据集概要
Alpaca是由OpenAI的text-davinci-003引擎生成的52,000个指令和演示的数据集。该指导数据可用于进行语言模型的指导调优,使语言模型更好地遵循指令。
作者在
Self-Instruct framework
的数据生成流水线的基础上进行了改进,具体如下:
- 使用text-davinci-003引擎生成指令数据,而不是davinci。
- 编写了一个
new prompt
,明确要求使用text-davinci-003引擎生成指令。
- 使用更加激进的批量解码,即一次生成20个指令,大大降低了数据生成的成本。
- 简化了数据生成流程,舍弃了分类和非分类指令之间的差异。
- 每个指令只生成一个实例,而不是像Self-Instruct中一样生成2到3个实例。
这样产生了一个包含52K个示例的指导数据集,成本比原始数据集低得多(不到500美元)。在初步研究中,作者还发现,与
Self-Instruct
发布的数据相比,生成的52K数据更加多样化。
支持的任务:
语言:泰语版本:1.0