英文

wav2vec2-large-xls-r-300m-Urdu

这个模型是在common_voice数据集上对 facebook/wav2vec2-xls-r-300m 进行微调得到的。在评估集上取得以下结果:

  • 损失:0.9889
  • WER:0.5607
  • CER:0.2370
评估命令
  • 在mozilla-foundation/common_voice_8_0上使用test数据集进行评估
  • python eval.py --model_id kingabzpro/wav2vec2-large-xls-r-300m-Urdu --dataset mozilla-foundation/common_voice_8_0 --config ur --split test
    

    带有语言模型的推理

    from datasets import load_dataset, Audio
    from transformers import pipeline
    model = "kingabzpro/wav2vec2-large-xls-r-300m-Urdu"
    data = load_dataset("mozilla-foundation/common_voice_8_0",
                         "ur",
                         split="test", 
                         streaming=True, 
                         use_auth_token=True)
    
    sample_iter = iter(data.cast_column("path", 
                        Audio(sampling_rate=16_000)))
    sample = next(sample_iter)
    
    asr = pipeline("automatic-speech-recognition", model=model)
    prediction = asr(sample["path"]["array"], 
                      chunk_length_s=5, 
                      stride_length_s=1)
    prediction
    # => {'text': 'اب یہ ونگین لمحاتانکھار دلمیں میںفوث کریلیا اجائ'}
    

    训练超参数

    训练过程中使用了以下超参数:

    • 学习率:0.0001
    • 训练批大小:32
    • 评估批大小:8
    • 种子:42
    • 梯度累积步数:2
    • 总训练批大小:64
    • 优化器:Adam,betas=(0.9,0.999),epsilon=1e-08
    • lr_scheduler类型:线性
    • lr_scheduler_warmup_steps:1000
    • 训练轮数:200

    训练结果

    Training Loss Epoch Step Validation Loss Wer Cer
    3.6398 30.77 400 3.3517 1.0 1.0
    2.9225 61.54 800 2.5123 1.0 0.8310
    1.2568 92.31 1200 0.9699 0.6273 0.2575
    0.8974 123.08 1600 0.9715 0.5888 0.2457
    0.7151 153.85 2000 0.9984 0.5588 0.2353
    0.6416 184.62 2400 0.9889 0.5607 0.2370

    框架版本

    • Transformers 4.17.0.dev0
    • Pytorch 1.10.2+cu102
    • Datasets 1.18.2.dev0
    • Tokenizers 0.11.0

    Common Voice 8 "test"上的评估结果(WER):

    Without LM With LM (run ./eval.py )
    52.03 39.89