模型:

nvidia/tts_hifigan

任务:

文本转语音

类库:

NeMo PyTorch

数据集:

ljspeech 3Aljspeech

语言:

其他:

speech audio Vocoder GAN NeMo Riva

预印本库:

arxiv:2010.05646

许可:

cc-by-4.0

模型介绍文件清单

英文

NVIDIA Hifigan Vocoder (en-US)

| | | | |

HiFiGAN [1]是一个生成对抗网络（GAN）模型，用于根据mel频谱图生成音频。生成器使用转置卷积将mel频谱图上采样到音频。

用法

该模型可在NeMo工具包[2]中使用，并可用作推理的预训练检查点或在另一个数据集上进行微调。要训练、微调或使用该模型，您需要安装 NVIDIA NeMo 。我们建议您在安装最新的PyTorch版本后再安装。

pip install nemo_toolkit['all']

自动实例化模型

注意：为了生成音频，您还需要来自NeMo的频谱图生成器。此示例使用FastPitch模型。

# Load FastPitch
from nemo.collections.tts.models import FastPitchModel
spec_generator = FastPitchModel.from_pretrained("nvidia/tts_en_fastpitch")

# Load vocoder
from nemo.collections.tts.models import HifiGanModel
model = HifiGanModel.from_pretrained(model_name="nvidia/tts_hifigan")

生成音频

import soundfile as sf
parsed = spec_generator.parse("You can type your sentence here to get nemo to produce speech.")
spectrogram = spec_generator.generate_spectrogram(tokens=parsed)
audio = model.convert_spectrogram_to_audio(spec=spectrogram)

保存生成的音频文件

# Save the audio to disk in a file called speech.wav
sf.write("speech.wav", audio.to('cpu').numpy(), 22050)

输入

此模型接受批量的mel频谱图。

输出

此模型的音频输出为22050Hz。

模型架构

HiFi-GAN [1]包括一个生成器和两个鉴别器：多尺度鉴别器和多周期鉴别器。生成器和鉴别器进行对抗训练，同时使用两个额外的损失来提高训练稳定性和模型性能。

训练

使用NeMo工具包[3]训练了多个纪元的模型。这些模型是使用该 example script 和该 base config 进行训练的。

数据集

该模型在以22050Hz采样的LJSpeech上进行了训练，并已经在生成带有美式口音的女性英语声音上进行了测试。

性能

目前没有可用的性能信息。

局限性

如果频谱图生成器模型（例如FastPitch）在新发言人的数据上进行了训练/微调，建议也微调HiFi-GAN。HiFi-GAN使用合成的mel频谱图显示了改进，所以第一步是使用我们微调的FastPitch模型生成mel频谱图，作为HiFiGAN微调的输入。

在NVIDIA Riva中部署

为了获得最佳的实时准确性、延迟和吞吐量，在NVIDIA Riva中部署模型，这是一个可在本地、各种云、混合云、边缘和嵌入式设备上部署的加速语音AI SDK。此外，Riva还提供：

具有世界级开箱即用准确性的常见语言，带有使用数十万个GPU计算小时进行训练的模型检查点
通过运行时词提升（例如品牌和产品名称）和个性化声学模型、语言模型和逆文本归一化来实现最佳准确性
流式语音识别、兼容Kubernetes的扩展和企业级支持请查看 Riva live demo 。

参考资料

.hf-sanitized.hf-sanitized-yx5Vn8iDVib8giBlnuH_7 {display: inline;}

作者:

NVIDIA

数据集大小:

300.78 MB