英文

NVIDIA Hifigan Vocoder (en-US)

| | | | |

HiFiGAN [1]是一个生成对抗网络(GAN)模型,用于根据mel频谱图生成音频。生成器使用转置卷积将mel频谱图上采样到音频。

用法

该模型可在NeMo工具包[2]中使用,并可用作推理的预训练检查点或在另一个数据集上进行微调。要训练、微调或使用该模型,您需要安装 NVIDIA NeMo 。我们建议您在安装最新的PyTorch版本后再安装。

pip install nemo_toolkit['all']

自动实例化模型

注意:为了生成音频,您还需要来自NeMo的频谱图生成器。此示例使用FastPitch模型。

# Load FastPitch
from nemo.collections.tts.models import FastPitchModel
spec_generator = FastPitchModel.from_pretrained("nvidia/tts_en_fastpitch")

# Load vocoder
from nemo.collections.tts.models import HifiGanModel
model = HifiGanModel.from_pretrained(model_name="nvidia/tts_hifigan")

生成音频

import soundfile as sf
parsed = spec_generator.parse("You can type your sentence here to get nemo to produce speech.")
spectrogram = spec_generator.generate_spectrogram(tokens=parsed)
audio = model.convert_spectrogram_to_audio(spec=spectrogram)

保存生成的音频文件

# Save the audio to disk in a file called speech.wav
sf.write("speech.wav", audio.to('cpu').numpy(), 22050)

输入

此模型接受批量的mel频谱图。

输出

此模型的音频输出为22050Hz。

模型架构

HiFi-GAN [1]包括一个生成器和两个鉴别器:多尺度鉴别器和多周期鉴别器。生成器和鉴别器进行对抗训练,同时使用两个额外的损失来提高训练稳定性和模型性能。

训练

使用NeMo工具包[3]训练了多个纪元的模型。这些模型是使用该 example script 和该 base config 进行训练的。

数据集

该模型在以22050Hz采样的LJSpeech上进行了训练,并已经在生成带有美式口音的女性英语声音上进行了测试。

性能

目前没有可用的性能信息。

局限性

如果频谱图生成器模型(例如FastPitch)在新发言人的数据上进行了训练/微调,建议也微调HiFi-GAN。HiFi-GAN使用合成的mel频谱图显示了改进,所以第一步是使用我们微调的FastPitch模型生成mel频谱图,作为HiFiGAN微调的输入。

在NVIDIA Riva中部署

为了获得最佳的实时准确性、延迟和吞吐量,在NVIDIA Riva中部署模型,这是一个可在本地、各种云、混合云、边缘和嵌入式设备上部署的加速语音AI SDK。此外,Riva还提供:

  • 具有世界级开箱即用准确性的常见语言,带有使用数十万个GPU计算小时进行训练的模型检查点
  • 通过运行时词提升(例如品牌和产品名称)和个性化声学模型、语言模型和逆文本归一化来实现最佳准确性
  • 流式语音识别、兼容Kubernetes的扩展和企业级支持请查看 Riva live demo

参考资料

.hf-sanitized.hf-sanitized-yx5Vn8iDVib8giBlnuH_7 {display: inline;}