英文

ResNet-like模型

该存储库提供了在SpeechBrain中进行增强和稳健ASR训练(EN)所需的所有工具。为了获得更好的体验,我们鼓励您了解更多关于 SpeechBrain 的信息。模型性能是:

Release Test PESQ Test COVL Valid WER Test WER
22-06-21 3.05 3.74 2.89 2.80

适用于SpeechBrain v0.5.12

管道描述

mimic loss训练系统由三个步骤组成:

  • 使用与增强掩膜系统相同类型的干净语音特征预训练感知模型。
  • 使用预训练的感知模型通过mimic loss训练增强模型。
  • 使用增强前端微调在LibriSpeech上预训练的大型ASR模型。
  • 增强模型和ASR模型可以一起使用或独立使用。

    安装SpeechBrain

    首先,请使用以下命令安装SpeechBrain:

    pip install speechbrain
    

    请注意,我们鼓励您阅读我们的教程并了解更多关于 SpeechBrain 的信息。

    预训练使用

    要使用使用mimic loss训练的模型进行增强,请使用以下简单代码:

    import torchaudio
    from speechbrain.pretrained import WaveformEnhancement
    
    enhance_model = WaveformEnhancement.from_hparams(
        source="speechbrain/mtl-mimic-voicebank",
        savedir="pretrained_models/mtl-mimic-voicebank",
    )
    enhanced = enhance_model.enhance_file("speechbrain/mtl-mimic-voicebank/example.wav")
    
    # Saving enhanced signal on disk
    torchaudio.save('enhanced.wav', enhanced.unsqueeze(0).cpu(), 16000)
    

    该系统使用16kHz(单通道)的采样的录音进行训练。如果在调用enhance_file时需要,该代码将自动对音频进行归一化处理(即重新采样+选择单声道)。如果您使用enhance_batch,确保输入张量与预期的采样率相符。

    在GPU上进行推理

    要在GPU上执行推理,调用from_hparams方法时添加run_opts={"device":"cuda"}。

    训练

    该模型是使用SpeechBrain(150e1890)训练的。要从头开始训练,请按照以下步骤进行:

  • 克隆SpeechBrain:
  • git clone https://github.com/speechbrain/speechbrain/
    
  • 安装:
  • cd speechbrain
    pip install -r requirements.txt
    pip install -e .
    
  • 运行训练:
  • cd  recipes/Voicebank/MTL/ASR_enhance
    python train.py hparams/enhance_mimic.yaml --data_folder=your_data_folder
    

    您可以在 here 找到我们的训练结果(模型、日志等)。

    限制

    SpeechBrain团队对在其他数据集上使用此模型时所达到的性能不提供任何保证。

    引用模仿损失

    如果您发现模仿损失有用,请引用:

    @inproceedings{bagchi2018spectral,
    title={Spectral Feature Mapping with Mimic Loss for Robust Speech Recognition},
    author={Bagchi, Deblin and Plantinga, Peter and Stiff, Adam and Fosler-Lussier, Eric},
    booktitle={IEEE Conference on Audio, Speech, and Signal Processing (ICASSP)},
    year={2018}
    }
    

    关于SpeechBrain

    引用SpeechBrain

    如果您在研究或商业中使用SpeechBrain,请引用它。

    @misc{speechbrain,
      title={{SpeechBrain}: A General-Purpose Speech Toolkit},
      author={Mirco Ravanelli and Titouan Parcollet and Peter Plantinga and Aku Rouhe and Samuele Cornell and Loren Lugosch and Cem Subakan and Nauman Dawalatabad and Abdelwahab Heba and Jianyuan Zhong and Ju-Chieh Chou and Sung-Lin Yeh and Szu-Wei Fu and Chien-Feng Liao and Elena Rastorgueva and François Grondin and William Aris and Hwidong Na and Yan Gao and Renato De Mori and Yoshua Bengio},
      year={2021},
      eprint={2106.04624},
      archivePrefix={arXiv},
      primaryClass={eess.AS},
      note={arXiv:2106.04624}
    }