模型:

TabbyML/SantaCoder-1B

许可:

openrail

其他:

text-generation-inference Eval Results gpt_bigcode

语言:

code

数据集:

3Abigcode/the-stack

类库:

Transformers Safetensors PyTorch

任务:

文本生成

模型介绍文件清单

英文

SantaCoder

在 SantaCoder Space Demo 上玩这个模型。

模型概述

这是 SantaCoder 的 Megatron 版本。关于该模型的完整文档，请参阅 SantaCoder model page 。

存储库： bigcode/Megatron-LM
项目网站：bigcode-project.org
论文： ?SantaCoder: Don't reach for the stars!?
联系人：contact@bigcode-project.org
编程语言：Python、Java 和 JavaScript

模型有两个版本（分支）：

main：使用 gpt_bigcode 模型。 Requires the bigcode fork of transformers 。
main_custom：用其建模代码打包。需要 transformers>=4.27。也可以在旧版本上运行，方法是设置配置参数 activation_function = "gelu_pytorch_tanh"。

用途

预期用途

该模型是在 GitHub 代码上进行训练的。因此，它不是一个指令模型，"编写一个计算平方根的函数"这样的命令效果不好。您应该以源代码中出现的方式来表达命令，比如注释（例如 # the following function computes the sqrt）或编写函数签名和文档字符串，并让模型完成函数体。

归属和其他要求

该模型的预训练数据集仅过滤了许可证允许的内容。尽管如此，该模型可以从数据集中原样生成源代码。代码的许可证可能需要归属和/或其他特定要求，必须遵守这些要求。我们提供了一个 search index ，可以让您搜索预训练数据，找出生成的代码来自何处，并对您的代码应用适当的归属。

限制

该模型是在 Python、Java 和 JavaScript 的源代码上进行训练的。源代码中的主要语言是英语，尽管其他语言也存在。因此，该模型能够根据上下文生成代码片段，但不能保证生成的代码能够按预期工作。它可能效率低下，包含错误或漏洞。

训练

模型

架构：GPT-2 模型，具有多查询注意力和填充中间目标
预训练步骤：600K
预训练令牌：2360亿
精度：float16

硬件

GPU：96 Tesla V100
训练时间：6.2 天
总 FLOPS：2.1 x 10e21

软件

编排： Megatron-LM
神经网络： PyTorch
如果适用，则使用 FP16： apex

许可证

该模型按照 CodeML Open RAIL-M v0.1 许可证进行许可。您可以在 here 找到完整的许可证。

作者:

TabbyML

数据集大小:

6.29 GB

SantaCoder

目录

模型概述

用途

预期用途

归属和其他要求

限制

训练

模型

硬件

软件

许可证