使用HiFIGAN在自定义德语数据集上训练的Vocoder

该存储库提供了使用在生成的德语数据集上训练的Vocoder所需的所有工具。

预训练模型（目前为8个时期）接收一个频谱图作为输入，并输出一个波形。通常，在将输入文本转换为频谱图的TTS模型之后使用声码器。

如何使用

安装SpeechBrain。

pip install speechbrain

使用TTS模型（例如 tts-tacotron-german ），生成一个频谱图并将其转换为音频。

import torchaudio
from speechbrain.pretrained import Tacotron2
from speechbrain.pretrained import HIFIGAN

tacotron2 = Tacotron2.from_hparams(source="padmalcom/tts-tacotron2-german", savedir="tmpdir_tts")
hifi_gan = HIFIGAN.from_hparams(source="padmalcom/tts-hifigan-german", savedir="tmpdir_vocoder")

mel_output, mel_length, alignment = tacotron2.encode_text("Mary had a little lamb")

waveforms = hifi_gan.decode_batch(mel_output)

torchaudio.save('example_TTS.wav',waveforms.squeeze(1), 22050)

在GPU上进行推理

在调用from_hparams方法时，添加run_opts={"device":"cuda"}以在GPU上执行推理。

作者:

Jonas

数据集大小:

53.25 MB