模型:
mrm8488/codeBERTaJS
CodeBERTaJS是一个基于GitHub上JavaScript语言数据集的类RoBERTa模型,由 Manuel Romero 进行训练。
分词器是使用Hugging Face tokenizers对语料库进行训练的基于字节级BPE的分词器。
由于它是在代码语料库上进行训练的(而不是自然语言),因此在编码语料库时效率更高(与使用gpt2/roberta对相同语料库进行分词相比,序列之间的长度缩短了33%至50%)。
(小型)模型是一个类似RoBERTa的Transformer模型,具有6层、8400万参数,这与DistilBERT相同的层数和头数。它从默认初始化设置开始初始化,并在完整的JavaScript语料库(预处理后为1.2亿个样本)上进行了2个epoch的训练。
JS_CODE = """
async function createUser(req, <mask>) {
if (!validUser(req.body.user)) {
\t return res.status(400);
}
user = userService.createUser(req.body.user);
return res.json(user);
}
""".lstrip()
from transformers import pipeline
fill_mask = pipeline(
"fill-mask",
model="mrm8488/codeBERTaJS",
tokenizer="mrm8488/codeBERTaJS"
)
fill_mask(JS_CODE)
## Top 5 predictions:
#
'res' # prob 0.069489665329
'next'
'req'
'user'
',req'
JS_CODE_= """
function getKeys(obj) {
keys = [];
for (var [key, value] of Object.entries(obj)) {
keys.push(<mask>);
}
return keys
}
""".lstrip()
结果:
'obj', 'key', ' value', 'keys', 'i'
还不错!正确的令牌被预测为第二个选项!?
@article{husain_codesearchnet_2019,
\ttitle = {{CodeSearchNet} {Challenge}: {Evaluating} the {State} of {Semantic} {Code} {Search}},
\tshorttitle = {{CodeSearchNet} {Challenge}},
\turl = {http://arxiv.org/abs/1909.09436},
\turldate = {2020-03-12},
\tjournal = {arXiv:1909.09436 [cs, stat]},
\tauthor = {Husain, Hamel and Wu, Ho-Hsiang and Gazit, Tiferet and Allamanis, Miltiadis and Brockschmidt, Marc},
\tmonth = sep,
\tyear = {2019},
\tnote = {arXiv: 1909.09436},
}
在西班牙用 ♥ 制作