模型:
mesolitica/wav2vec2-xls-r-300m-mixed
在 https://github.com/huseinzol05/malaya-speech/tree/master/data/mixed-stt 上进行了 https://huggingface.co/facebook/wav2vec2-xls-r-300m 的微调
这个模型在三种语言上进行了微调,
此模型在一台由 https://mesolitica.com/ 提供的单个RTX 3090 Ti 24GB VRAM上进行训练。
使用 https://github.com/huseinzol05/malaya-speech/tree/master/pretrained-model/prepare-stt 的评估集,其大小如下,
len(malay), len(singlish), len(mandarin) -> (765, 3579, 614)
根据 evaluate-gpu.ipynb 在评估集上达到以下结果:
混合评估,
CER: 0.0481054244857041 WER: 0.1322198446007387 CER with LM: 0.041196586938584696 WER with LM: 0.09880169127621556
马来语评估,
CER: 0.051636391937588406 WER: 0.19561999547293663 CER with LM: 0.03917689630621449 WER with LM: 0.12710746406824835
新加坡英语评估,
CER: 0.0494915200071987 WER: 0.12763802881676573 CER with LM: 0.04271234986432335 WER with LM: 0.09677160640413336
普通话评估,
CER: 0.035626554824269824 WER: 0.07993515937860181 CER with LM: 0.03487760945087219 WER with LM: 0.07536807168546154
语言模型来自 https://huggingface.co/huseinzol05/language-model-bahasa-manglish-combined