数据集:
shibing624/CSC
中文拼写纠错数据集
中文拼写纠错(CSC)是一项任务,用于检测和纠正中文文本中的拼写错误字符。
CSC是具有挑战性的,因为许多中文字符在视觉上或语音上相似,但具有非常不同的语义含义。
中文拼写纠错数据集,共27万条,是通过原始SIGHAN13、14、15年数据集和Wang271k数据集合并整理后得到,json格式,带错误字符位置信息。
如果只想用SIGHAN数据集,可以这样取数据:
from datasets import load_dataset dev_ds = load_dataset('shibing624/CSC', split='validation') print(dev_ds) print(dev_ds[0]) test_ds = load_dataset('shibing624/CSC', split='test') print(test_ds) print(test_ds[0])
中文拼写纠错任务
数据集用于训练预训练语言模型的CSC任务。
CSC中的数据为中文。
"train"的一个示例如下:
{ "id": "B2-4029-3", "original_text": "晚间会听到嗓音,白天的时候大家都不会太在意,但是在睡觉的时候这嗓音成为大家的恶梦。", "wrong_ids": [ 5, 31 ], "correct_text": "晚间会听到噪音,白天的时候大家都不会太在意,但是在睡觉的时候这噪音成为大家的恶梦。" }
字段解释:
train | dev | test | |
---|---|---|---|
CSC | 251835条 | 27981条 | 1100条 |
该数据集可在 Apache 2.0 许可下使用。
@misc{Xu_Pycorrector_Text_error, title={Pycorrector: Text error correction tool}, author={Xu Ming}, year={2021}, howpublished={\url{https://github.com/shibing624/pycorrector}}, }
shibing624 整理并上传