模型:
padmalcom/tts-hifigan-german
该存储库提供了使用在生成的德语数据集上训练的Vocoder所需的所有工具。
预训练模型(目前为8个时期)接收一个频谱图作为输入,并输出一个波形。通常,在将输入文本转换为频谱图的TTS模型之后使用声码器。
安装SpeechBrain。
pip install speechbrain
使用TTS模型(例如 tts-tacotron-german ),生成一个频谱图并将其转换为音频。
import torchaudio from speechbrain.pretrained import Tacotron2 from speechbrain.pretrained import HIFIGAN tacotron2 = Tacotron2.from_hparams(source="padmalcom/tts-tacotron2-german", savedir="tmpdir_tts") hifi_gan = HIFIGAN.from_hparams(source="padmalcom/tts-hifigan-german", savedir="tmpdir_vocoder") mel_output, mel_length, alignment = tacotron2.encode_text("Mary had a little lamb") waveforms = hifi_gan.decode_batch(mel_output) torchaudio.save('example_TTS.wav',waveforms.squeeze(1), 22050)
在调用from_hparams方法时,添加run_opts={"device":"cuda"}以在GPU上执行推理。