Identifier的数据集卡片

数据集简介

在编程语言中，标识符是称为符号的标记，用于命名语言实体。标识符可能表示的实体包括变量、类型、标签、子程序和程序包等。

Lynx是一个用于标识符分割的数据集，即在标识符上添加单词之间的空格的任务。

除了标识符分割之外，该数据集的金标签还包括缩写扩展。

语言

数据集结构

数据示例

{
    "index": 3,
    "identifier": "abspath",
    "segmentation": "abs path",
    "expansion": "absolute path",
    "spans": {
        "text": [
            "abs"
        ],
        "expansion": [
            "absolute"
        ],
        "start": [
            0
        ],
        "end": [
            4
        ]
    }
}

数据字段

index : 数字索引。
identifier : 原始的标识符。
segmentation : 标识符的黄金分割，不包括缩写扩展。
expansion : 标识符的黄金分割，包括缩写扩展。
spans : 每个缩写的起始和结束索引，缩写的文本及其对应的扩展。

数据集创建

此配置文件上的所有hashtag分割和标识符拆分数据集具有相同的基本字段：hashtag和分割或标识符和分割。
hashtag和分割或标识符和分割之间的唯一区别是空格字符。拼写检查、扩展缩写或将字符更正为大写字母等操作包含在其他字段中。
字母数字字符和任何特殊字符（如_、:、~）的序列之间始终有空格。
如果有任何命名实体识别和其他标记分类任务的注释，则放在spans字段中。

引用信息

@inproceedings{madani2010recognizing,
  title={Recognizing words from source code identifiers using speech recognition techniques},
  author={Madani, Nioosha and Guerrouj, Latifa and Di Penta, Massimiliano and Gueheneuc, Yann-Gael and Antoniol, Giuliano},
  booktitle={2010 14th European Conference on Software Maintenance and Reengineering},
  pages={68--77},
  year={2010},
  organization={IEEE}
}

贡献

此数据集是在开发 hashformers 库时由 @ruanchaves 添加的。

作者:

ruanchaves

数据集大小:

7.81 KB