模型:
speechbrain/asr-wav2vec2-dvoice-amharic
该代码库为您提供了在SpeechBrain上预训练的Amharic数据集( ALFFA 条样本)上进行端到端自动语音识别所需的所有工具。为了更好的体验,请您了解更多关于 SpeechBrain 的信息。
DVoice Release | Val. CER | Val. WER | Test CER | Test WER |
---|---|---|---|---|
v2.0 | 6.71 | 25.50 | 6.57 | 24.92 |
此ASR系统由2个不同但相互关联的模块组成:
首先,请使用以下命令安装transformers和SpeechBrain:
pip install speechbrain transformers
请注意,我们鼓励您阅读SpeechBrain教程,并更多了解关于 SpeechBrain 的信息。
from speechbrain.pretrained import EncoderASR asr_model = EncoderASR.from_hparams(source="speechbrain/asr-wav2vec2-dvoice-amharic", savedir="pretrained_models/asr-wav2vec2-dvoice-amharic") asr_model.transcribe_file('speechbrain/asr-wav2vec2-dvoice-amharic/example_amharic.wav')
若要在GPU上执行推理,请在调用from_hparams方法时添加run_opts={"device":"cuda"}。
该模型是使用SpeechBrain进行训练的。要从头开始训练,请按照以下步骤进行:
git clone https://github.com/speechbrain/speechbrain/
cd speechbrain pip install -r requirements.txt pip install -e .
cd recipes/DVoice/ASR/CTC python train_with_wav2vec2.py hparams/train_amh_with_wav2vec.yaml --data_folder=/localscratch/ALFFA_PUBLIC/ASR/AMHARIC/data/
您可以在这里找到我们的训练结果(模型、日志等) here 。
SpeechBrain团队不对在其他数据集上使用此模型的性能提供任何保证。
DVoice是一个社区倡议,旨在为非洲资源匮乏的语言提供数据和模型,以便促进其使用语音技术。对这些语言缺乏数据使得需要使用针对每种语言具体方法的数据收集。目前有两种不同的方法:基于Mozilla Common Voice的DVoice平台( https://dvoice.ma 和 https://dvoice.sn ),用于收集社区的真实录音以及从社交媒体中检索的用于自动标记录音的传递学习技术。DVoice平台目前管理7种语言,包括本版本上的Darija(摩洛哥阿拉伯方言),Wolof,Mandingo,Serere,Pular,Diola和Soninke。
在这个项目中,AIOX Labs和SI2M实验室共同努力,共同建设未来的技术。
AIOX-Labs总部位于拉巴特、伦敦和巴黎,利用人工智能技术来满足企业的业务需求和数据项目。
网站: https://www.aiox-labs.com/
信息系统、智能系统和数学建模研究实验室(SI2M)是应用经济统计国家研究所(INSEA)的学术研究实验室。实验室的研究领域包括信息系统、智能系统、人工智能、决策支持、网络和系统安全以及数学建模。
网站: SI2M Laboratory
SpeechBrain是一个开源的、全能的语音工具包。它被设计成简单、极其灵活和用户友好。在各个领域实现了竞争性或最先进的性能。
网站: https://speechbrain.github.io/ GitHub: https://github.com/speechbrain/speechbrain
@misc{SB2021, author = {Ravanelli, Mirco and Parcollet, Titouan and Rouhe, Aku and Plantinga, Peter and Rastorgueva, Elena and Lugosch, Loren and Dawalatabad, Nauman and Ju-Chieh, Chou and Heba, Abdel and Grondin, Francois and Aris, William and Liao, Chien-Feng and Cornell, Samuele and Yeh, Sung-Lin and Na, Hwidong and Gao, Yan and Fu, Szu-Wei and Subakan, Cem and De Mori, Renato and Bengio, Yoshua }, title = {SpeechBrain}, year = {2021}, publisher = {GitHub}, journal = {GitHub repository}, howpublished = {\\\\url{https://github.com/speechbrain/speechbrain}}, }
此研究得到了摩洛哥拉巴特CNRST提供的HPC-MARWAN( www.marwan.ma/hpc )计算资源的支持,对这个机构我们表示衷心感谢。