数据集:
ruanchaves/binkley
语言:
code计算机处理:
monolingual语言创建人:
machine-generated批注创建人:
expert-generated源数据集:
original许可:
license:unknown在编程语言中,标识符是表示语言实体的符号(也称为符号)。标识符可能表示的实体包括变量、类型、标签、子程序和包等。
Binkley 是一个用于标识符分段的数据集,即在标识符中添加单词之间的空格的任务。
{ "index": 0, "identifier": "init_g16_i", "segmentation": "init _ g 16 _ i" }
此资料库中的所有标签分割和标识符拆分数据集具有相同的基本字段:#标签和分段或标识符和分段。
#标签和分段或标识符和分段之间的唯一区别是空白字符。拼写检查、展开缩写或将字符更正为大写字母归入其他字段。
字母数字字符与任何特殊字符(例如 _ 、: 、~ )的序列之间始终有空格。
如果有任何用于命名实体识别和其他标记分类任务的注释,则在 spans 字段中给出。
@inproceedings{inproceedings, author = {Lawrie, Dawn and Binkley, David and Morrell, Christopher}, year = {2010}, month = {11}, pages = {3 - 12}, title = {Normalizing Source Code Vocabulary}, journal = {Proceedings - Working Conference on Reverse Engineering, WCRE}, doi = {10.1109/WCRE.2010.10} }
该数据集是由 @ruanchaves 在开发 hashformers 库时添加的。