模型:
mrm8488/codeBERTaJS
CodeBERTaJS是一个基于GitHub上JavaScript语言数据集的类RoBERTa模型,由 Manuel Romero 进行训练。
分词器是使用Hugging Face tokenizers对语料库进行训练的基于字节级BPE的分词器。
由于它是在代码语料库上进行训练的(而不是自然语言),因此在编码语料库时效率更高(与使用gpt2/roberta对相同语料库进行分词相比,序列之间的长度缩短了33%至50%)。
(小型)模型是一个类似RoBERTa的Transformer模型,具有6层、8400万参数,这与DistilBERT相同的层数和头数。它从默认初始化设置开始初始化,并在完整的JavaScript语料库(预处理后为1.2亿个样本)上进行了2个epoch的训练。
JS_CODE = """ async function createUser(req, <mask>) { if (!validUser(req.body.user)) { \t return res.status(400); } user = userService.createUser(req.body.user); return res.json(user); } """.lstrip()
from transformers import pipeline fill_mask = pipeline( "fill-mask", model="mrm8488/codeBERTaJS", tokenizer="mrm8488/codeBERTaJS" ) fill_mask(JS_CODE) ## Top 5 predictions: # 'res' # prob 0.069489665329 'next' 'req' 'user' ',req'
JS_CODE_= """ function getKeys(obj) { keys = []; for (var [key, value] of Object.entries(obj)) { keys.push(<mask>); } return keys } """.lstrip()
结果:
'obj', 'key', ' value', 'keys', 'i'
还不错!正确的令牌被预测为第二个选项!?
@article{husain_codesearchnet_2019, \ttitle = {{CodeSearchNet} {Challenge}: {Evaluating} the {State} of {Semantic} {Code} {Search}}, \tshorttitle = {{CodeSearchNet} {Challenge}}, \turl = {http://arxiv.org/abs/1909.09436}, \turldate = {2020-03-12}, \tjournal = {arXiv:1909.09436 [cs, stat]}, \tauthor = {Husain, Hamel and Wu, Ho-Hsiang and Gazit, Tiferet and Allamanis, Miltiadis and Brockschmidt, Marc}, \tmonth = sep, \tyear = {2019}, \tnote = {arXiv: 1909.09436}, }
在西班牙用 ♥ 制作