数据集CSC数据卡片

中文拼写纠错数据集

Repository: https://github.com/shibing624/pycorrector

数据集描述

中文拼写纠错（CSC）是一项任务，用于检测和纠正中文文本中的拼写错误字符。

CSC是具有挑战性的，因为许多中文字符在视觉上或语音上相似，但具有非常不同的语义含义。

中文拼写纠错数据集，共27万条，是通过原始SIGHAN13、14、15年数据集和Wang271k数据集合并整理后得到，json格式，带错误字符位置信息。

原始数据集摘要

test.json 和 dev.json 为 SIGHAN数据集，包括SIGHAN13 14 15，来自官方csc.html ，文件大小：339kb，4千条。
train.json 为 Wang271k数据集，包括 Wang271k，来自 Automatic-Corpus-Generation dimmywang提供，文件大小：93MB，27万条。

如果只想用SIGHAN数据集，可以这样取数据：

from datasets import load_dataset
dev_ds = load_dataset('shibing624/CSC', split='validation')
print(dev_ds)
print(dev_ds[0])
test_ds = load_dataset('shibing624/CSC', split='test')
print(test_ds)
print(test_ds[0])

支持的任务和排行榜

中文拼写纠错任务

数据集用于训练预训练语言模型的CSC任务。

语言

CSC中的数据为中文。

数据集结构

数据实例

"train"的一个示例如下：

{
    "id": "B2-4029-3",
    "original_text": "晚间会听到嗓音，白天的时候大家都不会太在意，但是在睡觉的时候这嗓音成为大家的恶梦。",
    "wrong_ids": [
        5,
        31
    ],
    "correct_text": "晚间会听到噪音，白天的时候大家都不会太在意，但是在睡觉的时候这噪音成为大家的恶梦。"
}

数据字段

字段解释：

id：唯一标识符，无意义
original_text: 原始错误文本
wrong_ids：错误字的位置，从0开始
correct_text: 纠正后的文本

数据拆分

train	dev	test
CSC	251835条	27981条	1100条

许可信息

该数据集可在 Apache 2.0 许可下使用。

引用信息

@misc{Xu_Pycorrector_Text_error,
  title={Pycorrector: Text error correction tool},
  author={Xu Ming},
  year={2021},
  howpublished={\url{https://github.com/shibing624/pycorrector}},
}

贡献

shibing624 整理并上传

作者:

shibing624

数据集大小:

105.33 MB