模型:

speechbrain/tts-hifigan-libritts-16kHz

英文

使用在LibriTTS数据集上训练的HiFIGAN VOCODER

此存储库提供了使用在多个说话人身上训练的HiFIGAN VOCODER的所有必要工具。所使用的采样率为16000 Hz。

预训练模型接收一个频谱图作为输入,并生成一个波形作为输出。通常,在将输入文本转换为频谱图的TTS模型之后使用语音编码器。

以下是该模型的替代模型:

安装SpeechBrain

pip install speechbrain

请注意,我们鼓励您阅读我们的教程并了解有关 SpeechBrain 的更多信息。

使用Vocoder

import torch
from speechbrain.pretrained import HIFIGAN
hifi_gan = HIFIGAN.from_hparams(source="speechbrain/tts-hifigan-libritts-16kHz", savedir="tmpdir")
mel_specs = torch.rand(2, 80,298)

# Running Vocoder (spectrogram-to-waveform)
waveforms = hifi_gan.decode_batch(mel_specs)

在GPU上推理

要在GPU上执行推理,在调用from_hparams方法时添加run_opts={"device":"cuda"}。

训练

模型使用SpeechBrain进行了训练。按照以下步骤从头开始训练:

  • 克隆SpeechBrain:
  • git clone https://github.com/speechbrain/speechbrain/
    
  • 安装:
  • cd speechbrain
    pip install -r requirements.txt
    pip install -e .
    
  • 运行训练:
  • cd recipes/LibriTTS/vocoder/hifigan/
    python train.py hparams/train.yaml --data_folder=/path/to/LibriTTS_data_destination --sample_rate=16000
    

    要更改模型训练的采样率,请转到“recipes/LibriTTS/vocoder/hifigan/hparams/train.yaml”文件,并根据需要更改sample_rate的值。训练日志和检查点可在 here 处获得。