数据集:

ruanchaves/jhotdraw

语言:

code

计算机处理:

monolingual

语言创建人:

machine-generated

批注创建人:

expert-generated

源数据集:

original
英文

Jhotdraw 数据集卡片

数据集概要

在编程语言中,标识符是指代语言实体的标记(也称为符号)。标识符可能表示的实体种类包括变量、类型、标签、子程序和包。

Jhotdraw 是一个用于标识符分割的数据集,即在标识符内添加单词之间的空格的任务。

语言

  • Java

数据集结构

数据实例

{
    "index": 0,
    "identifier": "abstractconnectorserializeddataversion",
    "segmentation": "abstract connector serialized data version"
}

数据字段

  • index:一个数字索引。
  • identifier:原始标识符。
  • segmentation:标识符的黄金分割。

数据集创建

  • 此配置文件中的所有hashtag分割和标识符分割数据集具有相同的基本字段:hashtag和分割或标识符和分割。

  • hashtag和分割或标识符和分割之间的唯一区别是空格字符。拼写检查、扩展缩写或将字符更正为大写字母的操作放在其他字段中。

  • 字母数字字符和任何特殊字符序列(如_面、:、~)之间始终有空格。

  • 如果有任何命名实体识别和其他标记分类任务的注释,则在spans字段中给出。

其他信息

引用信息

@inproceedings{madani2010recognizing,
  title={Recognizing words from source code identifiers using speech recognition techniques},
  author={Madani, Nioosha and Guerrouj, Latifa and Di Penta, Massimiliano and Gueheneuc, Yann-Gael and Antoniol, Giuliano},
  booktitle={2010 14th European Conference on Software Maintenance and Reengineering},
  pages={68--77},
  year={2010},
  organization={IEEE}
}

贡献

此数据集由 @ruanchaves 在开发 hashformers 库时添加。