模型:

speechbrain/asr-wav2vec2-dvoice-amharic

英文

wav2vec 2.0使用CTC/Attention在DVoice Amharic(无语言模型)上进行训练

该代码库为您提供了在SpeechBrain上预训练的Amharic数据集( ALFFA 条样本)上进行端到端自动语音识别所需的所有工具。为了更好的体验,请您了解更多关于 SpeechBrain 的信息。

DVoice Release Val. CER Val. WER Test CER Test WER
v2.0 6.71 25.50 6.57 24.92

流程描述

此ASR系统由2个不同但相互关联的模块组成:

  • 分词器(unigram)将单词转换为子词单元,并使用训练的转录进行训练。
  • 声学模型(wav2vec2.0 + CTC)。使用预训练的wav2vec 2.0模型( facebook/wav2vec2-large-xlsr-53 )与两个DNN层组合,并在Darija数据集上进行微调。最终获得的声学表示输入CTC贪婪解码器。系统使用16kHz的录音进行训练(单声道)。在调用transcribe_file时,如果需要,代码将自动对音频进行归一化处理(即重采样+选择单声道)。

安装SpeechBrain

首先,请使用以下命令安装transformers和SpeechBrain:

pip install speechbrain transformers

请注意,我们鼓励您阅读SpeechBrain教程,并更多了解关于 SpeechBrain 的信息。

对自己的音频文件进行转录(使用Amharic语言)

from speechbrain.pretrained import EncoderASR
asr_model = EncoderASR.from_hparams(source="speechbrain/asr-wav2vec2-dvoice-amharic", savedir="pretrained_models/asr-wav2vec2-dvoice-amharic")
asr_model.transcribe_file('speechbrain/asr-wav2vec2-dvoice-amharic/example_amharic.wav')

在GPU上进行推理

若要在GPU上执行推理,请在调用from_hparams方法时添加run_opts={"device":"cuda"}。

训练

该模型是使用SpeechBrain进行训练的。要从头开始训练,请按照以下步骤进行:

  • 克隆SpeechBrain:
  • git clone https://github.com/speechbrain/speechbrain/
    
  • 安装SpeechBrain:
  • cd speechbrain
    pip install -r requirements.txt
    pip install -e .
    
  • 运行训练:
  • cd recipes/DVoice/ASR/CTC
    python train_with_wav2vec2.py hparams/train_amh_with_wav2vec.yaml --data_folder=/localscratch/ALFFA_PUBLIC/ASR/AMHARIC/data/
    

    您可以在这里找到我们的训练结果(模型、日志等) here

    限制

    SpeechBrain团队不对在其他数据集上使用此模型的性能提供任何保证。

    关于DVoice

    DVoice是一个社区倡议,旨在为非洲资源匮乏的语言提供数据和模型,以便促进其使用语音技术。对这些语言缺乏数据使得需要使用针对每种语言具体方法的数据收集。目前有两种不同的方法:基于Mozilla Common Voice的DVoice平台( https://dvoice.ma https://dvoice.sn ),用于收集社区的真实录音以及从社交媒体中检索的用于自动标记录音的传递学习技术。DVoice平台目前管理7种语言,包括本版本上的Darija(摩洛哥阿拉伯方言),Wolof,Mandingo,Serere,Pular,Diola和Soninke。

    在这个项目中,AIOX Labs和SI2M实验室共同努力,共同建设未来的技术。

    关于AIOX Labs

    AIOX-Labs总部位于拉巴特、伦敦和巴黎,利用人工智能技术来满足企业的业务需求和数据项目。

    • 提供增长支持、流程优化或客户体验改进。
    • AIOX-Labs服务多个行业,包括金融科技、工业和零售消费品。
    • 提供具有坚实算法基础和适应每个客户特定需求的商业就绪数据产品。
    • 提供由AI博士和商业专家组成的互补团队,拥有坚实的科学基础和国际出版物。

    网站: https://www.aiox-labs.com/

    SI2M实验室

    信息系统、智能系统和数学建模研究实验室(SI2M)是应用经济统计国家研究所(INSEA)的学术研究实验室。实验室的研究领域包括信息系统、智能系统、人工智能、决策支持、网络和系统安全以及数学建模。

    网站: SI2M Laboratory

    关于SpeechBrain

    SpeechBrain是一个开源的、全能的语音工具包。它被设计成简单、极其灵活和用户友好。在各个领域实现了竞争性或最先进的性能。

    网站: https://speechbrain.github.io/ GitHub: https://github.com/speechbrain/speechbrain

    引用SpeechBrain

    @misc{SB2021,
        author = {Ravanelli, Mirco and Parcollet, Titouan and Rouhe, Aku and Plantinga, Peter and Rastorgueva, Elena and Lugosch, Loren and Dawalatabad, Nauman and Ju-Chieh, Chou and Heba, Abdel and Grondin, Francois and Aris, William and Liao, Chien-Feng and Cornell, Samuele and Yeh, Sung-Lin and Na, Hwidong and Gao, Yan and Fu, Szu-Wei and Subakan, Cem and De Mori, Renato and Bengio, Yoshua },
        title = {SpeechBrain},
        year = {2021},
        publisher = {GitHub},
        journal = {GitHub repository},
        howpublished = {\\\\url{https://github.com/speechbrain/speechbrain}},
      }
    

    致谢

    此研究得到了摩洛哥拉巴特CNRST提供的HPC-MARWAN( www.marwan.ma/hpc )计算资源的支持,对这个机构我们表示衷心感谢。