模型:

Salesforce/codegen-16B-nl

英文

CodeGen (CodeGen-NL 16B)

模型描述

CodeGen是一组自回归语言模型,用于程序合成,参考论文: A Conversational Paradigm for Program Synthesis ,作者为Erik Nijkamp, Bo Pang, Hiroaki Hayashi, Lifu Tu, Huan Wang, Yingbo Zhou, Silvio Savarese, Caiming Xiong. 该模型最初在 this repository 中发布,共有3种预训练数据变种(NL,Multi,Mono)和4种模型大小变种(350M,2B,6B,16B)。

这个存储库中的检查点被标记为CodeGen-NL 16B,其中"NL"表示其在Pile上进行了预训练,而"16B"指的是参数的数量。

训练数据

该检查点(CodeGen-NL 16B)是在 the Pile 上进行预训练的,这是由 EleutherAI 创建的一个大规模策划数据集,其中包含了代码数据的部分。

训练过程

CodeGen使用交叉熵损失进行训练,以最大化顺序输入的可能性。这系列模型使用Google的多个TPU-v4-512进行训练,利用了数据和模型的并行性。有关更多详细信息,请参阅 paper 的第2.3节。

评估结果

我们在两个代码生成基准(HumanEval和MTPB)上评估了我们的模型。更多详情请参阅 paper

预期使用和限制

作为一个自回归语言模型,CodeGen能够从给定的自然语言和编程语言文本中提取特征,并计算它们的可能性。然而,该模型的预期和最佳应用是程序合成,即在给定英语提示的情况下生成可执行代码,其中提示应该采用注释字符串的形式。该模型还可以完善部分生成的代码。

如何使用

可以使用AutoModelForCausalLM功能轻松加载此模型:

from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("Salesforce/codegen-16B-nl")
model = AutoModelForCausalLM.from_pretrained("Salesforce/codegen-16B-nl")

text = "def hello_world():"
input_ids = tokenizer(text, return_tensors="pt").input_ids
generated_ids = model.generate(input_ids, max_length=128)
print(tokenizer.decode(generated_ids[0], skip_special_tokens=True))

BibTeX条目和引用信息

@article{Nijkamp2022ACP,
  title={A Conversational Paradigm for Program Synthesis},
  author={Nijkamp, Erik and Pang, Bo and Hayashi, Hiroaki and Tu, Lifu and Wang, Huan and Zhou, Yingbo and Savarese, Silvio and Xiong, Caiming},
  journal={arXiv preprint},
  year={2022}
}