模型:

Salesforce/codegen2-16B

任务:

文本生成

类库:

PyTorch Transformers

其他:

codegen custom_code

预印本库:

arxiv:2305.02309

许可:

apache-2.0

模型介绍文件清单

英文

CodeGen2 (CodeGen2-16B)

模型描述

CodeGen2 是一系列用于程序合成的自回归语言模型，介绍在论文中：

CodeGen2: Lessons for Training LLMs on Programming and Natural Languages 作者：Erik Nijkamp*，Hiroaki Hayashi*，Caiming Xiong，Silvio Savarese，Yingbo Zhou。

与原始的CodeGen模型系列（即CodeGen1）不同，CodeGen2能够进行填充，并支持更多的编程语言。

发布了四种模型尺寸：1B，3.7B，7B，16B。

如何使用

可以使用AutoModelForCausalLM功能轻松加载此模型。

因果采样

对于常规的因果采样，只需根据上下文生成补全：

from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("Salesforce/codegen2-16B")
model = AutoModelForCausalLM.from_pretrained("Salesforce/codegen2-16B", trust_remote_code=True, revision="main")

text = "def hello_world():"
input_ids = tokenizer(text, return_tensors="pt").input_ids
generated_ids = model.generate(input_ids, max_length=128)
print(tokenizer.decode(generated_ids[0], skip_special_tokens=True))

填充采样

对于填充采样，我们引入了三种新的特殊标记类型：

<mask_N>：将被屏蔽的第N个部分。在实践中，使用<mask_1>来标记您想要采样的填充部分。
<sep>：后缀和填充样本之间的分隔符标记。如下所示。
<eom>：模型将在填充结束时输出的"End-Of-Mask"标记。您可以使用此标记来截断输出。

例如，如果我们想要为函数的以下光标位置生成填充：

def hello_world():
    |
    return name

我们通过以下方式构建模型的输入：

在光标位置处插入<mask_1>标记

附加<sep>标记以指示边界

插入另一个<mask_1>以指示我们要填充的屏蔽

最终的代码片段如下所示：

from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("Salesforce/codegen2-16B")
model = AutoModelForCausalLM.from_pretrained("Salesforce/codegen2-16B", trust_remote_code=True, revision="main")


def format(prefix, suffix):
  return prefix + "<mask_1>" + suffix + "<|endoftext|>" + "<sep>" + "<mask_1>"


prefix = "def hello_world():\n    "
suffix = "    return name"
text = format(prefix, suffix)
input_ids = tokenizer(text, return_tensors="pt").input_ids
generated_ids = model.generate(input_ids, max_length=128)
print(tokenizer.decode(generated_ids[0], skip_special_tokens=False)[len(text):])

您可能希望使用<eom>截断模型的输出。

训练数据

此检查点在 the deduplicated version of the Stack dataset (v1.1) 的严格宽松子集上进行了训练。支持的语言（和框架）如下：

c、c++、c-sharp、dart、go、java、javascript、kotlin、lua、php、python、ruby、rust、scala、shell、sql、swift、typescript、vue。

训练过程

CodeGen2是使用交叉熵损失进行训练的，以最大化顺序输入的可能性。输入序列采用两种格式：(1)因果语言建模和(2)文件级别的部分损坏。更多详情请参考论文。

评估结果

我们在HumanEval和HumanEval-Infill上评估了我们的模型。更多详情请参考 paper 。

预期用途和限制

作为一个自回归语言模型，CodeGen2能够从给定的自然语言和编程语言文本中提取特征，并计算它们的可能性。然而，该模型旨在实现最佳的程序合成，即根据英文提示生成可执行的代码，其中提示应该以注释字符串的形式提供。该模型还可以完成部分生成的代码。

BibTeX条目和引用信息

@article{Nijkamp2023codegen2,
  title={CodeGen2: Lessons for Training LLMs on Programming and Natural Languages},
  author={Nijkamp, Erik and Hayashi, Hiroaki and Xiong, Caiming and Savarese, Silvio and Zhou, Yingbo},
  journal={arXiv preprint},
  year={2023}
}

作者:

Salesforce

数据集大小:

59.86 GB