数据集:

ruanchaves/lynx

语言:

code

计算机处理:

monolingual

语言创建人:

machine-generated

批注创建人:

expert-generated

源数据集:

original
英文

Identifier的数据集卡片

数据集简介

在编程语言中,标识符是称为符号的标记,用于命名语言实体。标识符可能表示的实体包括变量、类型、标签、子程序和程序包等。

Lynx是一个用于标识符分割的数据集,即在标识符上添加单词之间的空格的任务。

除了标识符分割之外,该数据集的金标签还包括缩写扩展。

语言

  • C

数据集结构

数据示例

{
    "index": 3,
    "identifier": "abspath",
    "segmentation": "abs path",
    "expansion": "absolute path",
    "spans": {
        "text": [
            "abs"
        ],
        "expansion": [
            "absolute"
        ],
        "start": [
            0
        ],
        "end": [
            4
        ]
    }
}

数据字段

  • index : 数字索引。
  • identifier : 原始的标识符。
  • segmentation : 标识符的黄金分割,不包括缩写扩展。
  • expansion : 标识符的黄金分割,包括缩写扩展。
  • spans : 每个缩写的起始和结束索引,缩写的文本及其对应的扩展。

数据集创建

  • 此配置文件上的所有hashtag分割和标识符拆分数据集具有相同的基本字段:hashtag和分割或标识符和分割。

  • hashtag和分割或标识符和分割之间的唯一区别是空格字符。拼写检查、扩展缩写或将字符更正为大写字母等操作包含在其他字段中。

  • 字母数字字符和任何特殊字符(如_、:、~)的序列之间始终有空格。

  • 如果有任何命名实体识别和其他标记分类任务的注释,则放在spans字段中。

引用信息

@inproceedings{madani2010recognizing,
  title={Recognizing words from source code identifiers using speech recognition techniques},
  author={Madani, Nioosha and Guerrouj, Latifa and Di Penta, Massimiliano and Gueheneuc, Yann-Gael and Antoniol, Giuliano},
  booktitle={2010 14th European Conference on Software Maintenance and Reengineering},
  pages={68--77},
  year={2010},
  organization={IEEE}
}

贡献

此数据集是在开发 hashformers 库时由 @ruanchaves 添加的。