数据集:
shibing624/CSC
中文拼写纠错数据集
中文拼写纠错(CSC)是一项任务,用于检测和纠正中文文本中的拼写错误字符。
CSC是具有挑战性的,因为许多中文字符在视觉上或语音上相似,但具有非常不同的语义含义。
中文拼写纠错数据集,共27万条,是通过原始SIGHAN13、14、15年数据集和Wang271k数据集合并整理后得到,json格式,带错误字符位置信息。
如果只想用SIGHAN数据集,可以这样取数据:
from datasets import load_dataset
dev_ds = load_dataset('shibing624/CSC', split='validation')
print(dev_ds)
print(dev_ds[0])
test_ds = load_dataset('shibing624/CSC', split='test')
print(test_ds)
print(test_ds[0])
中文拼写纠错任务
数据集用于训练预训练语言模型的CSC任务。
CSC中的数据为中文。
"train"的一个示例如下:
{
"id": "B2-4029-3",
"original_text": "晚间会听到嗓音,白天的时候大家都不会太在意,但是在睡觉的时候这嗓音成为大家的恶梦。",
"wrong_ids": [
5,
31
],
"correct_text": "晚间会听到噪音,白天的时候大家都不会太在意,但是在睡觉的时候这噪音成为大家的恶梦。"
}
字段解释:
| train | dev | test | |
|---|---|---|---|
| CSC | 251835条 | 27981条 | 1100条 |
该数据集可在 Apache 2.0 许可下使用。
@misc{Xu_Pycorrector_Text_error,
title={Pycorrector: Text error correction tool},
author={Xu Ming},
year={2021},
howpublished={\url{https://github.com/shibing624/pycorrector}},
}
shibing624 整理并上传