数据集:
priyank-m/SROIE_2019_text_recognition
我们使用扫描收据OCR和信息提取(SROIE)数据集准备了这个数据集。SROIE数据集包含了973份英文扫描收据。从每个收据中裁剪边界框以生成这个文本识别数据集,结果为训练集生成了33626张图像,测试集生成了18704张图像。所有图像的文本注释都存储在一个metadata.jsonl文件中。
使用方法:
from dataset import load_dataset
data = load_dataset("priyank-m/SROIE_2019_text_recognition")
原始SROIE数据集来源: https://www.kaggle.com/datasets/urbikn/sroie-datasetv2