模型:

mesolitica/wav2vec2-xls-r-300m-mixed

英文

wav2vec2-xls-r-300m-mixed

https://github.com/huseinzol05/malaya-speech/tree/master/data/mixed-stt 上进行了 https://huggingface.co/facebook/wav2vec2-xls-r-300m 的微调

这个模型在三种语言上进行了微调,

  • 马来语
  • 新加坡英语
  • 普通话
  • 此模型在一台由 https://mesolitica.com/ 提供的单个RTX 3090 Ti 24GB VRAM上进行训练。

    评估集

    使用 https://github.com/huseinzol05/malaya-speech/tree/master/pretrained-model/prepare-stt 的评估集,其大小如下,

    len(malay), len(singlish), len(mandarin)
    -> (765, 3579, 614)
    

    根据 evaluate-gpu.ipynb 在评估集上达到以下结果:

    混合评估,

    CER: 0.0481054244857041
    WER: 0.1322198446007387
    CER with LM: 0.041196586938584696
    WER with LM: 0.09880169127621556
    

    马来语评估,

    CER: 0.051636391937588406
    WER: 0.19561999547293663
    CER with LM: 0.03917689630621449
    WER with LM: 0.12710746406824835
    

    新加坡英语评估,

    CER: 0.0494915200071987
    WER: 0.12763802881676573
    CER with LM: 0.04271234986432335
    WER with LM: 0.09677160640413336
    

    普通话评估,

    CER: 0.035626554824269824
    WER: 0.07993515937860181
    CER with LM: 0.03487760945087219
    WER with LM: 0.07536807168546154
    

    语言模型来自 https://huggingface.co/huseinzol05/language-model-bahasa-manglish-combined