CodeBERTaJS

CodeBERTaJS是一个基于GitHub上JavaScript语言数据集的类RoBERTa模型，由 Manuel Romero 进行训练。

分词器是使用Hugging Face tokenizers对语料库进行训练的基于字节级BPE的分词器。

由于它是在代码语料库上进行训练的（而不是自然语言），因此在编码语料库时效率更高（与使用gpt2/roberta对相同语料库进行分词相比，序列之间的长度缩短了33%至50%）。

（小型）模型是一个类似RoBERTa的Transformer模型，具有6层、8400万参数，这与DistilBERT相同的层数和头数。它从默认初始化设置开始初始化，并在完整的JavaScript语料库（预处理后为1.2亿个样本）上进行了2个epoch的训练。

快速入门：遮蔽语言建模预测

JS_CODE = """
async function createUser(req, <mask>) {
  if (!validUser(req.body.user)) {
\t  return res.status(400);
  }
  user = userService.createUser(req.body.user);
  return res.json(user);
}
""".lstrip()

该模型是否知道如何完成简单的JS/express代码？

from transformers import pipeline

fill_mask = pipeline(
    "fill-mask",
    model="mrm8488/codeBERTaJS",
    tokenizer="mrm8488/codeBERTaJS"
)

fill_mask(JS_CODE)

## Top 5 predictions:
#
'res' # prob  0.069489665329
'next'
'req'
'user'
',req'

是的！这很容易🎉我们试试另一个例子

JS_CODE_= """
function getKeys(obj) {
  keys = [];
  for (var [key, value] of Object.entries(obj)) {
     keys.push(<mask>);
  }
  return keys
}
""".lstrip()

结果：

'obj', 'key', ' value', 'keys', 'i'

还不错！正确的令牌被预测为第二个选项！🎉

这项工作受到Hugging Face团队的 codeBERTa 的启发

CodeSearchNet引用

@article{husain_codesearchnet_2019,
\ttitle = {{CodeSearchNet} {Challenge}: {Evaluating} the {State} of {Semantic} {Code} {Search}},
\tshorttitle = {{CodeSearchNet} {Challenge}},
\turl = {http://arxiv.org/abs/1909.09436},
\turldate = {2020-03-12},
\tjournal = {arXiv:1909.09436 [cs, stat]},
\tauthor = {Husain, Hamel and Wu, Ho-Hsiang and Gazit, Tiferet and Allamanis, Miltiadis and Brockschmidt, Marc},
\tmonth = sep,
\tyear = {2019},
\tnote = {arXiv: 1909.09436},
}

由 Manuel Romero/@mrm8488 创建

在西班牙用 ♥ 制作

作者:

Manuel Romero

数据集大小:

640.77 MB