英文

低音大声说中国话(普通话)

这个模型是在中国(普通话)上通过使用 Common Voice 11 的训练和验证集的微调版本。并非在训练期间使用了所有的验证集数据,我从验证集中提取了1k个样本用于微调过程中的评估。

使用方法

from transformers import pipeline

transcriber = pipeline(
  "automatic-speech-recognition", 
  model="jonatasgrosman/whisper-large-zh-cv11"
)

transcriber.model.config.forced_decoder_ids = (
  transcriber.tokenizer.get_decoder_prompt_ids(
    language="zh", 
    task="transcribe"
  )
)

transcription = transcriber("path/to/my_audio.wav")

评估

我使用了两个数据集的测试集对模型进行了评估,分别是 Common Voice 11 (用于微调的相同数据集)和 Fleurs (在微调期间未见过的数据集)。由于Whisper可以转录大小写和标点符号,因此我以原始文本和标准化文本(小写+标点符号删除)的两种情况进行了模型评估。此外,对于Fleurs数据集,我在没有数值值转录的情况下评估了模型,因为该数据集中描述数值的方式与用于微调的数据集(Common Voice)中描述数值的方式不同,因此预计这种数值描述方式的差异将影响模型在Fleurs中进行此类转录的性能。

Common Voice 11

CER WER
1235321 9.31 55.94
1235321 + text normalization 9.55 55.02
1237321 33.33 101.80
1237321 + text normalization 29.90 95.91

Fleurs

CER WER
1235321 15.00 93.45
1235321 + text normalization 11.76 70.63
1235321 + keep only non-numeric samples 10.95 87.91
1235321 + text normalization + keep only non-numeric samples 7.83 62.12
1237321 23.49 101.28
1237321 + text normalization 17.58 83.22
1237321 + keep only non-numeric samples 21.03 101.95
1237321 + text normalization + keep only non-numeric samples 15.22 79.28