模型:
speechbrain/asr-wav2vec2-commonvoice-fr
该存储库提供了在SpeechBrain中预训练的用于从CommonVoice(法语)上进行端到端自动语音识别的所有必要工具。为了获得更好的体验,我们鼓励您了解更多信息: SpeechBrain .
模型的性能如下:
Release | Test CER | Test WER | GPUs |
---|---|---|---|
24-08-21 | 3.19 | 9.96 | 2xV100 32GB |
该ASR系统由两个不同但相互关联的模块组成:
该系统使用16kHz采样的录音进行训练(单声道)。在调用transcribe_file时,如果需要,代码将自动对音频进行标准化(即重新采样+选择单声道)。
首先,请使用以下命令安装transformers和SpeechBrain:
pip install speechbrain transformers
请注意,我们鼓励您阅读我们的教程,并了解更多信息: SpeechBrain 。
from speechbrain.pretrained import EncoderASR asr_model = EncoderASR.from_hparams(source="speechbrain/asr-wav2vec2-commonvoice-fr", savedir="pretrained_models/asr-wav2vec2-commonvoice-fr") asr_model.transcribe_file('speechbrain/asr-wav2vec2-commonvoice-fr/example-fr.wav')
要在GPU上进行推理,请在调用from_hparams方法时添加run_opts={"device":"cuda"}。
该模型是使用SpeechBrain进行训练的。要从头开始训练,请按照以下步骤进行:
git clone https://github.com/speechbrain/speechbrain/
cd speechbrain pip install -r requirements.txt pip install -e .
cd recipes/CommonVoice/ASR/CTC/ python train_with_wav2vec.py hparams/train_fr_with_wav2vec.yaml --data_folder=your_data_folder
您可以在此处找到我们的训练结果(模型、日志等): here 。
SpeechBrain团队不对在其他数据集上使用此模型时所达到的性能提供任何保证。
关于SpeechBrain的引用@misc{SB2021, author = {Ravanelli, Mirco and Parcollet, Titouan and Rouhe, Aku and Plantinga, Peter and Rastorgueva, Elena and Lugosch, Loren and Dawalatabad, Nauman and Ju-Chieh, Chou and Heba, Abdel and Grondin, Francois and Aris, William and Liao, Chien-Feng and Cornell, Samuele and Yeh, Sung-Lin and Na, Hwidong and Gao, Yan and Fu, Szu-Wei and Subakan, Cem and De Mori, Renato and Bengio, Yoshua }, title = {SpeechBrain}, year = {2021}, publisher = {GitHub}, journal = {GitHub repository}, howpublished = {\\\\url{https://github.com/speechbrain/speechbrain}}, }
SpeechBrain是一个开源的全能语音工具包。它旨在简单、非常灵活和用户友好。在各个领域中都可以获得竞争力或最新技术水平的性能。