模型:
microsoft/codebert-base
针对 CodeBERT: A Pre-Trained Model for Programming and Natural Languages 的预训练模型权重。
该模型是在 CodeSearchNet 的双模态数据(文档和代码)上进行训练的。
该模型使用 MLM+RTD 目标初始化了 Roberta-base,并进行训练(详见论文)。
请参阅 the official repository 中支持 "代码搜索" 和 "代码到文档生成" 的脚本。
@misc{feng2020codebert, title={CodeBERT: A Pre-Trained Model for Programming and Natural Languages}, author={Zhangyin Feng and Daya Guo and Duyu Tang and Nan Duan and Xiaocheng Feng and Ming Gong and Linjun Shou and Bing Qin and Ting Liu and Daxin Jiang and Ming Zhou}, year={2020}, eprint={2002.08155}, archivePrefix={arXiv}, primaryClass={cs.CL} }