Stability AI发布开放音频模型Stable Audio Open

2024年06月06日由 daydream 发表 258 0

Stability AI通过发布Stable Audio Open 1.0，开始将他们在音频领域的生成式AI技术推向公众视野。

微信截图_20240606113046

虽然Stability AI因其在文本到图像生成领域的稳定AI技术而备受瞩目，但这只是公司庞大产品线的一部分。他们还推出了多款应用于代码、文本和音频的模型。2023年9月，Stability AI首次公开推出了Stable Audio，这是一款文本到音频的生成式AI工具。随后，在4月3日，Stable Audio 2.0问世，进一步提升了音频的清晰度和长度。

尽管完整的Stable Audio工具已可供商业使用，并能生成长达3分钟的音频，但新推出的Stable Audio Open在功能上有显著限制。Stable Audio Open并非用于创作完整的歌曲，而是专注于生成较短的音频片段，如声音效果。

顾名思义，Stable Audio Open是一个开放模型，尽管它并非传统意义上的开源。Stable Audio Open并未采用Open Source Initiative（OSI）批准的许可证，而是根据Stability AI的非商业研究社区协议向用户开放。这一协议允许用户访问模型，但限制了其使用方式。

Stability AI的音频研究主管Zach Evans在接受VentureBeat采访时表示：“我们推出Stable Audio Open的目的是为音频研究人员和制作人提供我们生成式音频模型的实际操作机会，以加速这些令人难以置信的新工具的研究、采用和创造性的实用化。”

那么，Stable Audio Open究竟是什么呢？

Stable Audio Open是一个经过专门优化的模型，主要用于创作鼓点、乐器即兴演奏、环境声音等音频样本，适用于音乐制作和声音设计。

与Stability AI的商业产品Stable Audio不同，后者能够生成长达三分钟、连贯的音乐曲目，Stable Audio Open则专注于通过文本提示生成长达47秒的高质量音频数据。

Stability AI在训练这个模型时采取了负责任的态度。该模型在FreeSound和Free Music Archive的音频数据上进行训练，确保没有使用任何未经授权的版权或专有材料。

Stable Audio Open发布的一个关键优势在于，用户可以在自己的自定义音频数据上微调模型。例如，鼓手可以用自己的鼓录音样本来微调模型，以生成全新的、独特的节奏。

Stable Audio的微调功能是通过Stable Audio Tools库实现的，这个库采用了真正的开源许可证。Stable Audio Open模型的权重现已在Hugging Face平台上开放获取。

Stability AI的音频研究团队一直在努力提高他们生成式音频模型的质量和可控性，Evan表示：“我们期待未来进一步发布商业和开放模型，以展示我们研究的最新进展。”

文章来源：https://venturebeat.com/ai/stability-ai-debuts-new-stable-audio-open-for-sound-design/

标签：

Stability AI 音频模型

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇字节推出Seed-TTS文本到语音模型，可生成媲美人类的语音

下一篇 Camb AI推出逼真的AI语音克隆模型Mars5

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来