数据集:

teticio/audio-diffusion-256

英文

该模型是在包含 teticio/audio-diffusion-256 个例子的训练集上进行训练的去噪扩散概率模型,用于生成256x256的梅尔频谱图,对应于5秒的音频。有关从音频到频谱图及其反向转换的代码可以在 https://github.com/teticio/audio-diffusion 中找到,其中还包括用于训练和运行推断的脚本。