Stability AI 开源音频生成模型——Stable Audio Open

2024年07月23日 由 samoyed 发表 192 0

在人工智能领域,开放性的生成模型是进步的重要基石。这些模型对于推进研究和激发创造力至关重要,因为它们允许微调并作为新创新的基准。然而,一个重大的挑战依然存在,即许多最先进的文本到音频模型仍然是专有的,限制了研究人员的访问权限。


acastro_210512_1777_deepfake_0003


最近,Stability AI的研究团队推出了一种新的开放权重文本到音频模型,该模型仅使用Creative Commons数据进行训练。这一范式旨在确保开放性和道德数据使用的同时,为人工智能社区提供一个强大的工具。其主要特点如下:


这个新模型具有开放的权重,与许多专有模型不同。这使得研究人员和开发人员能够检查、修改和扩展模型,因为其设计和参数都向公众开放。


该模型仅使用具有Creative Commons许可证的音频文件进行训练。这一决定确保了训练材料的道德和法律健全性。开发人员通过使用Creative Commons下可用的数据,鼓励数据方法的开放性,并避免了潜在的版权问题。


新模型的架构旨在提供可访问的高质量音频合成,具体如下:


该模型采用了一种复杂的架构,在文本到音频生成方面提供了出色的保真度。在44.1kHz的采样率下,它能够生成高质量的立体声,确保生成的音频满足清晰度和真实性的严格要求。


在教学过程中,使用了各种具有Creative Commons许可证的音频文件。这种方法不仅保证了模型能够产生逼真且多样化的音频输出,还帮助它从各种声音环境中学习。


为了确保新模型达到或超过先前模型设定的标准,已对其性能进行了全面评估。在评估生成的音频真实性时,FDopenl3是主要采用的评估指标之一。该指标的测试结果表明,该模型具有生成高质量音频的能力,其性能与业界顶级模型相当。为了评估模型的能力并确定待发展的领域,已将其性能与其他表现优异的模型进行了比较。这项比较研究证实了新模型的卓越品质和可用性。


总之,随着这种开放权重文本到音频模型的发布,生成式音频技术取得了显著进展。该概念通过强调开放性、道德数据利用和高质量音频合成,解决了行业中的许多现有问题。它为文本到音频制作设定了新的标准,并且是学者、艺术家和开发人员的宝贵资源。

文章来源:https://www.marktechpost.com/2024/07/22/stability-ai-open-sources-stable-audio-open-an-audio-generation-model-with-variable-length-up-to-47s-stereo-audio-at-44-1khz-from-text-prompts/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
写评论取消
回复取消