数据集:

ruanchaves/loyola

语言:

code

计算机处理:

monolingual

语言创建人:

machine-generated

批注创建人:

expert-generated

源数据集:

original
英文

The Loyola University of Delaware Identifier Splitting Oracle数据集卡片

数据集概述

在编程语言中,标识符是用于命名语言实体的令牌(也称为符号)。标识符可能表示的实体种类包括变量、类型、标签、子程序和包等。

The Loyola University of Delaware Identifier Splitting Oracle是用于标识符分割的数据集,即在标识符上添加单词之间的空格的任务。

语言

  • Java
  • C
  • C++

数据集结构

数据实例

{
    "index": 0,
    "identifier": "::CreateProcess",
    "segmentation": ":: Create Process",
    "language": "cpp",
    "source": "mozilla-source-1.1"
}

数据字段

  • index:一个数字索引。
  • identifier:原始标识符。
  • segmentation:标识符的分割结果。
  • language:源代码的编程语言。
  • source:标识符的源。

数据集创建

  • 此配置文件上的所有哈希标记分段和标识符拆分数据集具有相同的基本字段:hashtag和segmentation或identifier和segmentation。

  • hashtag与segmentation或identifier与segmentation之间的唯一区别是空格字符。拼写检查、扩展缩写或将字符更正为大写的操作存储在其他字段中。

  • 字母数字字符与任何特殊字符序列(如_,:,~)之间始终存在空格。

  • 如果存在用于命名实体识别和其他令牌分类任务的注释,则给出在spans字段中。

引用信息

@article{hill2014empirical,
  title={An empirical study of identifier splitting techniques},
  author={Hill, Emily and Binkley, David and Lawrie, Dawn and Pollock, Lori and Vijay-Shanker, K},
  journal={Empirical Software Engineering},
  volume={19},
  number={6},
  pages={1754--1780},
  year={2014},
  publisher={Springer}
}

贡献

此数据集由 @ruanchaves 在开发 hashformers 库时添加。