模型:
jonatasgrosman/whisper-large-zh-cv11
这个模型是在中国(普通话)上通过使用 Common Voice 11 的训练和验证集的微调版本。并非在训练期间使用了所有的验证集数据,我从验证集中提取了1k个样本用于微调过程中的评估。
from transformers import pipeline transcriber = pipeline( "automatic-speech-recognition", model="jonatasgrosman/whisper-large-zh-cv11" ) transcriber.model.config.forced_decoder_ids = ( transcriber.tokenizer.get_decoder_prompt_ids( language="zh", task="transcribe" ) ) transcription = transcriber("path/to/my_audio.wav")
我使用了两个数据集的测试集对模型进行了评估,分别是 Common Voice 11 (用于微调的相同数据集)和 Fleurs (在微调期间未见过的数据集)。由于Whisper可以转录大小写和标点符号,因此我以原始文本和标准化文本(小写+标点符号删除)的两种情况进行了模型评估。此外,对于Fleurs数据集,我在没有数值值转录的情况下评估了模型,因为该数据集中描述数值的方式与用于微调的数据集(Common Voice)中描述数值的方式不同,因此预计这种数值描述方式的差异将影响模型在Fleurs中进行此类转录的性能。
CER | WER | |
---|---|---|
1235321 | 9.31 | 55.94 |
1235321 + text normalization | 9.55 | 55.02 |
1237321 | 33.33 | 101.80 |
1237321 + text normalization | 29.90 | 95.91 |
CER | WER | |
---|---|---|
1235321 | 15.00 | 93.45 |
1235321 + text normalization | 11.76 | 70.63 |
1235321 + keep only non-numeric samples | 10.95 | 87.91 |
1235321 + text normalization + keep only non-numeric samples | 7.83 | 62.12 |
1237321 | 23.49 | 101.28 |
1237321 + text normalization | 17.58 | 83.22 |
1237321 + keep only non-numeric samples | 21.03 | 101.95 |
1237321 + text normalization + keep only non-numeric samples | 15.22 | 79.28 |