数据集:

ruanchaves/bt11

语言:

code

计算机处理:

monolingual

语言创建人:

machine-generated

批注创建人:

expert-generated

源数据集:

original
英文

BT11数据集的数据卡片

数据集概述

在编程语言中,标识符是指代语言实体的标记(也称为符号)。标识符可能表示的实体包括变量、类型、标签、子程序和包等。

BT11是用于标识符分词的数据集,即在标识符中加入空格以分隔单词。

语言

  • Java

数据集结构

数据实例

{
    "index": 20170,
    "identifier": "currentLineHighlight",
    "segmentation": "current Line Highlight"
}

数据字段

  • index:一个数值索引。
  • identifier :原始标识符。
  • segmentation :标识符的正确分隔。

数据集创建

  • 此概要文件中的所有主题标记分词和标识符分割数据集都具有相同的基本字段:hashtag和segmentation或identifier和segmentation。

  • hashtag和segmentation或identifier和segmentation之间唯一的区别是空格字符。拼写检查、扩展缩写或修正字符为大写字母都放在其他字段中。

  • 字母数字字符和任何特殊字符序列之间始终有空格(例如_、:、~等)。

  • 如果有任何命名实体识别和其他标记分类任务的注释,则给出在spans字段中。

附加信息

引用信息

@inproceedings{butler2011improving,
  title={Improving the tokenisation of identifier names},
  author={Butler, Simon and Wermelinger, Michel and Yu, Yijun and Sharp, Helen},
  booktitle={European Conference on Object-Oriented Programming},
  pages={130--154},
  year={2011},
  organization={Springer}
}

贡献

该数据集是由 @ruanchaves 在开发 hashformers 库的过程中添加的。