wav2vec2-large-xls-r-300m-Urdu

这个模型是在common_voice数据集上对 facebook/wav2vec2-xls-r-300m 进行微调得到的。在评估集上取得以下结果：

损失：0.9889
WER：0.5607
CER：0.2370

评估命令

在mozilla-foundation/common_voice_8_0上使用test数据集进行评估

python eval.py --model_id kingabzpro/wav2vec2-large-xls-r-300m-Urdu --dataset mozilla-foundation/common_voice_8_0 --config ur --split test

带有语言模型的推理

from datasets import load_dataset, Audio
from transformers import pipeline
model = "kingabzpro/wav2vec2-large-xls-r-300m-Urdu"
data = load_dataset("mozilla-foundation/common_voice_8_0",
                     "ur",
                     split="test", 
                     streaming=True, 
                     use_auth_token=True)

sample_iter = iter(data.cast_column("path", 
                    Audio(sampling_rate=16_000)))
sample = next(sample_iter)

asr = pipeline("automatic-speech-recognition", model=model)
prediction = asr(sample["path"]["array"], 
                  chunk_length_s=5, 
                  stride_length_s=1)
prediction
# => {'text': 'اب یہ ونگین لمحاتانکھار دلمیں میںفوث کریلیا اجائ'}

训练超参数

训练过程中使用了以下超参数：

学习率：0.0001
训练批大小：32
评估批大小：8
种子：42
梯度累积步数：2
总训练批大小：64
优化器：Adam，betas=(0.9,0.999)，epsilon=1e-08
lr_scheduler类型：线性
lr_scheduler_warmup_steps：1000
训练轮数：200

训练结果

Training Loss	Epoch	Step	Validation Loss	Wer	Cer
3.6398	30.77	400	3.3517	1.0	1.0
2.9225	61.54	800	2.5123	1.0	0.8310
1.2568	92.31	1200	0.9699	0.6273	0.2575
0.8974	123.08	1600	0.9715	0.5888	0.2457
0.7151	153.85	2000	0.9984	0.5588	0.2353
0.6416	184.62	2400	0.9889	0.5607	0.2370

框架版本

Transformers 4.17.0.dev0
Pytorch 1.10.2+cu102
Datasets 1.18.2.dev0
Tokenizers 0.11.0

Common Voice 8 "test"上的评估结果（WER）：

Without LM	With LM (run ./eval.py )
52.03	39.89

作者:

Abid Ali Awan

数据集大小:

1.33 GB