Stability AI 开源音频生成模型——Stable Audio Open

2024年07月23日由 samoyed 发表 278 0

在人工智能领域，开放性的生成模型是进步的重要基石。这些模型对于推进研究和激发创造力至关重要，因为它们允许微调并作为新创新的基准。然而，一个重大的挑战依然存在，即许多最先进的文本到音频模型仍然是专有的，限制了研究人员的访问权限。

acastro_210512_1777_deepfake_0003

最近，Stability AI的研究团队推出了一种新的开放权重文本到音频模型，该模型仅使用Creative Commons数据进行训练。这一范式旨在确保开放性和道德数据使用的同时，为人工智能社区提供一个强大的工具。其主要特点如下：

这个新模型具有开放的权重，与许多专有模型不同。这使得研究人员和开发人员能够检查、修改和扩展模型，因为其设计和参数都向公众开放。

该模型仅使用具有Creative Commons许可证的音频文件进行训练。这一决定确保了训练材料的道德和法律健全性。开发人员通过使用Creative Commons下可用的数据，鼓励数据方法的开放性，并避免了潜在的版权问题。

新模型的架构旨在提供可访问的高质量音频合成，具体如下：

该模型采用了一种复杂的架构，在文本到音频生成方面提供了出色的保真度。在44.1kHz的采样率下，它能够生成高质量的立体声，确保生成的音频满足清晰度和真实性的严格要求。

在教学过程中，使用了各种具有Creative Commons许可证的音频文件。这种方法不仅保证了模型能够产生逼真且多样化的音频输出，还帮助它从各种声音环境中学习。

为了确保新模型达到或超过先前模型设定的标准，已对其性能进行了全面评估。在评估生成的音频真实性时，FDopenl3是主要采用的评估指标之一。该指标的测试结果表明，该模型具有生成高质量音频的能力，其性能与业界顶级模型相当。为了评估模型的能力并确定待发展的领域，已将其性能与其他表现优异的模型进行了比较。这项比较研究证实了新模型的卓越品质和可用性。

总之，随着这种开放权重文本到音频模型的发布，生成式音频技术取得了显著进展。该概念通过强调开放性、道德数据利用和高质量音频合成，解决了行业中的许多现有问题。它为文本到音频制作设定了新的标准，并且是学者、艺术家和开发人员的宝贵资源。

文章来源：https://www.marktechpost.com/2024/07/22/stability-ai-open-sources-stable-audio-open-an-audio-generation-model-with-variable-length-up-to-47s-stereo-audio-at-44-1khz-from-text-prompts/

标签：

Stability AI

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇苹果加速人工智能发展：看看其新模型能做什么

下一篇 Meta Llama 3.1横空出世，多项跑分超越OpenAI GPT-4o

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来