英文

SantaCoder

SantaCoder Space Demo 上玩这个模型。

目录

  • 模型概述
  • 用途
  • 限制
  • 训练
  • 许可证
  • 引用
  • 模型概述

    这是 SantaCoder 的 Megatron 版本。关于该模型的完整文档,请参阅 SantaCoder model page

    模型有两个版本(分支):

    • main:使用 gpt_bigcode 模型。 Requires the bigcode fork of transformers
    • main_custom:用其建模代码打包。需要 transformers>=4.27。也可以在旧版本上运行,方法是设置配置参数 activation_function = "gelu_pytorch_tanh"。

    用途

    预期用途

    该模型是在 GitHub 代码上进行训练的。因此,它不是一个指令模型,"编写一个计算平方根的函数"这样的命令效果不好。您应该以源代码中出现的方式来表达命令,比如注释(例如 # the following function computes the sqrt)或编写函数签名和文档字符串,并让模型完成函数体。

    归属和其他要求

    该模型的预训练数据集仅过滤了许可证允许的内容。尽管如此,该模型可以从数据集中原样生成源代码。代码的许可证可能需要归属和/或其他特定要求,必须遵守这些要求。我们提供了一个 search index ,可以让您搜索预训练数据,找出生成的代码来自何处,并对您的代码应用适当的归属。

    限制

    该模型是在 Python、Java 和 JavaScript 的源代码上进行训练的。源代码中的主要语言是英语,尽管其他语言也存在。因此,该模型能够根据上下文生成代码片段,但不能保证生成的代码能够按预期工作。它可能效率低下,包含错误或漏洞。

    训练

    模型

    • 架构:GPT-2 模型,具有多查询注意力和填充中间目标
    • 预训练步骤:600K
    • 预训练令牌:2360亿
    • 精度:float16

    硬件

    • GPU:96 Tesla V100
    • 训练时间:6.2 天
    • 总 FLOPS:2.1 x 10e21

    软件

    许可证

    该模型按照 CodeML Open RAIL-M v0.1 许可证进行许可。您可以在 here 找到完整的许可证。