数据集:

Thaweewat/alpaca-cleaned-52k-th

英文

概要

这是一份由Google Cloud翻译完成的泰语??指导数据集,该数据集是从斯坦福大学发布的经过清洗的原始Alpaca数据集翻译而来,包含了由OpenAI的text-davinci-003引擎生成的52,000个指令和演示。该指导数据可用于进行语言模型的指导调优,使语言模型更好地遵循指令。

在原始发布的数据中,已经发现并在这个数据集中进行了修复以下问题:

  • 幻觉: 原始数据集中的许多指令引用了互联网上的数据,导致GPT3产生了幻觉式的答案。
  • 合并的指令: 在原始数据集中,有许多指令被合并在一起。
  • 空输出: 原始数据集中的一些条目输出为空。
  • 空代码示例: 原始数据集中的一些描述缺少代码示例,使得理解代码的预期行为变得困难。
  • 生成图像的指令: 一些原始数据集中的描述包含生成图像的指令,这显然是不可能的。
  • N/A输出: 原始数据集中的一些代码片段输出为N/A。
  • 输入字段不一致: 原始数据集在输入字段为空时的使用不一致。
  • 错误答案: 原始数据集中的一些指令/问题的答案是错误的。据估计,大约80%的数学问题的答案是错误的。
  • 荒诞/不清晰的指令: 许多指令不清晰,我们对非实际意义的指令进行澄清(或重新编写)。那些不太清晰,但可以推断出意思的指令不会被改变。
  • 多余的转义和控制字符: 原始数据集中有几个条目有多余的转义和控制字符。
  • 原始Alpaca数据集概要

    Alpaca是由OpenAI的text-davinci-003引擎生成的52,000个指令和演示的数据集。该指导数据可用于进行语言模型的指导调优,使语言模型更好地遵循指令。

    作者在 Self-Instruct framework 的数据生成流水线的基础上进行了改进,具体如下:

    • 使用text-davinci-003引擎生成指令数据,而不是davinci。
    • 编写了一个 new prompt ,明确要求使用text-davinci-003引擎生成指令。
    • 使用更加激进的批量解码,即一次生成20个指令,大大降低了数据生成的成本。
    • 简化了数据生成流程,舍弃了分类和非分类指令之间的差异。
    • 每个指令只生成一个实例,而不是像Self-Instruct中一样生成2到3个实例。

    这样产生了一个包含52K个示例的指导数据集,成本比原始数据集低得多(不到500美元)。在初步研究中,作者还发现,与 Self-Instruct 发布的数据相比,生成的52K数据更加多样化。

    支持的任务:

    • 训练LLM
    • 合成数据生成
    • 数据增强

    语言:泰语版本:1.0