数据集:

shibing624/CSC

英文

数据集CSC数据卡片

中文拼写纠错数据集

数据集描述

中文拼写纠错(CSC)是一项任务,用于检测和纠正中文文本中的拼写错误字符。

CSC是具有挑战性的,因为许多中文字符在视觉上或语音上相似,但具有非常不同的语义含义。

中文拼写纠错数据集,共27万条,是通过原始SIGHAN13、14、15年数据集和Wang271k数据集合并整理后得到,json格式,带错误字符位置信息。

原始数据集摘要

如果只想用SIGHAN数据集,可以这样取数据:

from datasets import load_dataset
dev_ds = load_dataset('shibing624/CSC', split='validation')
print(dev_ds)
print(dev_ds[0])
test_ds = load_dataset('shibing624/CSC', split='test')
print(test_ds)
print(test_ds[0])

支持的任务和排行榜

中文拼写纠错任务

数据集用于训练预训练语言模型的CSC任务。

语言

CSC中的数据为中文。

数据集结构

数据实例

"train"的一个示例如下:

{
    "id": "B2-4029-3",
    "original_text": "晚间会听到嗓音,白天的时候大家都不会太在意,但是在睡觉的时候这嗓音成为大家的恶梦。",
    "wrong_ids": [
        5,
        31
    ],
    "correct_text": "晚间会听到噪音,白天的时候大家都不会太在意,但是在睡觉的时候这噪音成为大家的恶梦。"
}

数据字段

字段解释:

  • id:唯一标识符,无意义
  • original_text: 原始错误文本
  • wrong_ids: 错误字的位置,从0开始
  • correct_text: 纠正后的文本

数据拆分

train dev test
CSC 251835条 27981条 1100条

许可信息

该数据集可在 Apache 2.0 许可下使用。

引用信息

@misc{Xu_Pycorrector_Text_error,
  title={Pycorrector: Text error correction tool},
  author={Xu Ming},
  year={2021},
  howpublished={\url{https://github.com/shibing624/pycorrector}},
}

贡献

shibing624 整理并上传