| | | | |
HiFiGAN [1]是一个生成对抗网络(GAN)模型,用于根据mel频谱图生成音频。生成器使用转置卷积将mel频谱图上采样到音频。
该模型可在NeMo工具包[2]中使用,并可用作推理的预训练检查点或在另一个数据集上进行微调。要训练、微调或使用该模型,您需要安装 NVIDIA NeMo 。我们建议您在安装最新的PyTorch版本后再安装。
pip install nemo_toolkit['all']
注意:为了生成音频,您还需要来自NeMo的频谱图生成器。此示例使用FastPitch模型。
# Load FastPitch from nemo.collections.tts.models import FastPitchModel spec_generator = FastPitchModel.from_pretrained("nvidia/tts_en_fastpitch") # Load vocoder from nemo.collections.tts.models import HifiGanModel model = HifiGanModel.from_pretrained(model_name="nvidia/tts_hifigan")
import soundfile as sf parsed = spec_generator.parse("You can type your sentence here to get nemo to produce speech.") spectrogram = spec_generator.generate_spectrogram(tokens=parsed) audio = model.convert_spectrogram_to_audio(spec=spectrogram)
# Save the audio to disk in a file called speech.wav sf.write("speech.wav", audio.to('cpu').numpy(), 22050)
此模型接受批量的mel频谱图。
此模型的音频输出为22050Hz。
HiFi-GAN [1]包括一个生成器和两个鉴别器:多尺度鉴别器和多周期鉴别器。生成器和鉴别器进行对抗训练,同时使用两个额外的损失来提高训练稳定性和模型性能。
使用NeMo工具包[3]训练了多个纪元的模型。这些模型是使用该 example script 和该 base config 进行训练的。
该模型在以22050Hz采样的LJSpeech上进行了训练,并已经在生成带有美式口音的女性英语声音上进行了测试。
目前没有可用的性能信息。
如果频谱图生成器模型(例如FastPitch)在新发言人的数据上进行了训练/微调,建议也微调HiFi-GAN。HiFi-GAN使用合成的mel频谱图显示了改进,所以第一步是使用我们微调的FastPitch模型生成mel频谱图,作为HiFiGAN微调的输入。
为了获得最佳的实时准确性、延迟和吞吐量,在NVIDIA Riva中部署模型,这是一个可在本地、各种云、混合云、边缘和嵌入式设备上部署的加速语音AI SDK。此外,Riva还提供: