数据集:

ruanchaves/binkley

语言:

code

计算机处理:

monolingual

语言创建人:

machine-generated

批注创建人:

expert-generated

源数据集:

original
英文

Binkley 数据集卡片

数据集简介

在编程语言中,标识符是表示语言实体的符号(也称为符号)。标识符可能表示的实体包括变量、类型、标签、子程序和包等。

Binkley 是一个用于标识符分段的数据集,即在标识符中添加单词之间的空格的任务。

语言

  • C
  • C++
  • Java

数据集结构

数据实例

{
    "index": 0,
    "identifier": "init_g16_i",
    "segmentation": "init _ g 16 _ i"
}

数据字段

  • index: 数值索引。
  • identifier: 原始标识符。
  • segmentation: 标识符的分段结果。

数据集创建

  • 此资料库中的所有标签分割和标识符拆分数据集具有相同的基本字段:#标签和分段或标识符和分段。

  • #标签和分段或标识符和分段之间的唯一区别是空白字符。拼写检查、展开缩写或将字符更正为大写字母归入其他字段。

  • 字母数字字符与任何特殊字符(例如 _ 、: 、~ )的序列之间始终有空格。

  • 如果有任何用于命名实体识别和其他标记分类任务的注释,则在 spans 字段中给出。

附加信息

引用信息

@inproceedings{inproceedings,
author = {Lawrie, Dawn and Binkley, David and Morrell, Christopher},
year = {2010},
month = {11},
pages = {3 - 12},
title = {Normalizing Source Code Vocabulary},
journal = {Proceedings - Working Conference on Reverse Engineering, WCRE},
doi = {10.1109/WCRE.2010.10}
}

贡献

该数据集是由 @ruanchaves 在开发 hashformers 库时添加的。