英文

乌克兰语音转文本模型(带有语言模型)

??加入乌克兰语音识别社区 - https://t.me/speech_recognition_uk

⭐ 查看其他乌克兰模型 - https://github.com/egorsmkv/speech-recognition-uk

此模型是对 MOZILLA-FOUNDATION/COMMON_VOICE_7_0 - UK 数据集上的 facebook/wav2vec2-xls-r-1b 进行微调得到的。

在没有语言模型的情况下,它在评估集上达到以下结果:

  • 损失:0.1875
  • WER:0.2033
  • CER:0.0384

模型描述

在100个测试示例中,该模型显示出以下结果:

没有语言模型:

  • WER:0.1862
  • CER:0.0277

使用语言模型:

  • WER:0.1218
  • CER:0.0190

训练过程

训练超参数

在训练过程中使用了以下超参数:

  • 学习率:5e-05
  • 训练批次大小:8
  • 评估批次大小:8
  • 种子:42
  • 梯度积累步数:20
  • 总训练批次大小:160
  • 优化器:Adam,beta=(0.9,0.999),epsilon=1e-08
  • 学习率调度程序类型:线性
  • 学习率调度程序预热步数:500
  • 训练周期数:100.0
  • 混合精度训练:Native AMP

训练结果

Training Loss Epoch Step Validation Loss Wer Cer
1.2815 7.93 500 0.3536 0.4753 0.1009
1.0869 15.86 1000 0.2317 0.3111 0.0614
0.9984 23.8 1500 0.2022 0.2676 0.0521
0.975 31.74 2000 0.1948 0.2469 0.0487
0.9306 39.67 2500 0.1916 0.2377 0.0464
0.8868 47.61 3000 0.1903 0.2257 0.0439
0.8424 55.55 3500 0.1786 0.2206 0.0423
0.8126 63.49 4000 0.1849 0.2160 0.0416
0.7901 71.42 4500 0.1869 0.2138 0.0413
0.7671 79.36 5000 0.1855 0.2075 0.0394
0.7467 87.3 5500 0.1884 0.2049 0.0389
0.731 95.24 6000 0.1877 0.2060 0.0387

框架版本

  • Transformers 4.16.0.dev0
  • Pytorch 1.10.1+cu102
  • Datasets 1.18.1.dev0
  • Tokenizers 0.11.0
Evaluation Commands
  • 在 mozilla-foundation/common_voice_7_0 上进行评估,使用 test 拆分
  • python eval.py --model_id Yehor/wav2vec2-xls-r-1b-uk-with-lm --dataset mozilla-foundation/common_voice_7_0 --config uk --split test
    

    在 Common Voice 7 的 "test" 上的评估结果 (WER):

    Without LM With LM (run ./eval.py )
    21.52 14.62