模型:
facebook/musicgen-small
MusicGen是一种文本到音乐模型,能够根据文本描述或音频提示生成高质量的音乐样本。它是一个单阶段自回归的Transformer模型,使用32kHz的EnCodec分词器进行训练,并以50Hz的频率对4个码本进行采样。与现有方法(如MusicLM)不同,MusicGen不需要自监督的语义表示,并且它可以一次生成全部4个码本。通过在码本之间引入适当的延迟,我们可以并行预测它们,因此每秒的音频只需要50个自回归步骤。
MusicGen于 Simple and Controllable Music Generation 年由Jade Copet、Felix Kreuk、Itai Gat、Tal Remez、David Kant、Gabriel Synnaeve、Yossi Adi、Alexandre Défossez发表。
释放了四个检查点:
请自行尝试使用MusicGen!
您可以使用来自4.31.0版本开始的? Transformers库在本地运行MusicGen。
pip install git+https://github.com/huggingface/transformers.git
from transformers import AutoProcessor, MusicgenForConditionalGeneration processor = AutoProcessor.from_pretrained("facebook/musicgen-small") model = MusicgenForConditionalGeneration.from_pretrained("facebook/musicgen-small") inputs = processor( text=["80s pop track with bassy drums and synth", "90s rock song with loud guitars and heavy drums"], padding=True, return_tensors="pt", ) audio_values = model.generate(**inputs, max_new_tokens=256)
from IPython.display import Audio sampling_rate = model.config.audio_encoder.sampling_rate Audio(audio_values[0].numpy(), rate=sampling_rate)
或者使用第三方库(例如scipy)将它们保存为.wav文件:
import scipy sampling_rate = model.config.audio_encoder.sampling_rate scipy.io.wavfile.write("musicgen_out.wav", rate=sampling_rate, data=audio_values[0, 0].numpy())
有关使用? Transformers库进行MusicGen模型推断的更多详细信息,请参阅 MusicGen docs 。
您还可以通过原始的 Audiocraft library 本地运行MusicGen:
pip install git+https://github.com/facebookresearch/audiocraft.git
apt get install ffmpeg
from audiocraft.models import MusicGen from audiocraft.data.audio import audio_write model = MusicGen.get_pretrained("small") model.set_generation_params(duration=8) # generate 8 seconds. descriptions = ["happy rock", "energetic EDM"] wav = model.generate(descriptions) # generates 2 samples. for idx, one_wav in enumerate(wav): # Will save under {idx}.wav, with loudness normalization at -14 db LUFS. audio_write(f'{idx}', one_wav.cpu(), model.sample_rate, strategy="loudness")
开发该模型的组织:Meta AI的FAIR团队。
模型日期:MusicGen的训练日期为2023年4月至2023年5月。
模型版本:这是模型的第1个版本。
模型类型:MusicGen由音频分词的EnCodec模型和基于Transformer架构的自回归语言模型组成,模型有不同的大小:300M、1.5B和3.3B参数;以及两种变体:用于文本到音乐生成任务的模型和用于以旋律为导向的音乐生成的模型。
论文或更多信息资源:有关更多信息,请参见论文[Simple and Controllable Music Generation][ https://arxiv.org/abs/2306.05284] ]。
引用详细信息:
@misc{copet2023simple, title={Simple and Controllable Music Generation}, author={Jade Copet and Felix Kreuk and Itai Gat and Tal Remez and David Kant and Gabriel Synnaeve and Yossi Adi and Alexandre Défossez}, year={2023}, eprint={2306.05284}, archivePrefix={arXiv}, primaryClass={cs.SD} }
许可证代码在MIT下发布,模型权重在CC-BY-NC 4.0下发布。
如何发送关于模型的问题或评论:关于MusicGen的问题和评论可以通过项目的[ Github repository ]发送,或通过开放问题。
主要预期用途:MusicGen的主要用途是进行基于AI的音乐生成的研究,包括:
主要预期用户:该模型的主要预期用户是音频、机器学习和人工智能研究人员,以及希望更好地了解这些模型的业余爱好者。
超出范围的用例模型不应在没有进一步的风险评估和缓解措施的情况下用于下游应用。模型不应用于故意创建或传播被人们认为令人困扰、痛苦或冒犯的音乐作品,或者传播历史或当前的刻板印象的内容。
模型性能度量:我们使用以下客观度量来评估模型在标准音乐基准上的性能:
此外,我们对人类参与者进行了定性研究,评估模型在以下方面的性能:
关于性能度量和人类研究的更多详细信息可以在论文中找到。
决策阈值:不适用。
该模型在 MusicCaps benchmark 和一个与训练集没有歌手重叠的领域内保留的评估集上进行评估。
该模型使用以下来源进行训练:[ Meta Music Initiative Sound Collection ],[ Shutterstock music collection ]和[ Pond5 music collection ]。有关训练集和相应预处理的更多详细信息,请参阅论文。
有关更多信息,请参阅论文[Simple and Controllable Music Generation][arxiv]中的实验设置部分。
数据:用于训练模型的数据源由音乐专业人士创建,并与权利持有者签订了法律协议。该模型经过了2万小时的数据训练,我们相信将模型扩展到更大的数据集可以进一步改进模型的性能。
缓解措施:使用最新的音乐源分离方法(即使用开源[ Hybrid Transformer for Music Source Separation ]进行音乐源分离)。因此,该模型无法生成人声。
限制:
偏见:数据来源可能缺乏多样性,并且没有平衡地代表所有音乐文化。该模型可能无法在存在的各种音乐流派上表现同样出色。模型生成的样本将反映训练数据的偏见。进一步研究这个模型应包括在文化多样性和包容性方面平衡和公正的方法,例如通过将训练数据扩展到既多样又具包容性。
风险和危害:模型的偏见和限制可能导致生成被认为具有偏见、不适当或冒犯的样本。我们相信,提供重现研究和训练新模型的代码将有助于将应用拓展到新的和更具代表性的数据。
用例:用户必须意识到模型的偏见、限制和风险。MusicGen是用于人工智能研究的模型,用于可控音乐生成。因此,在没有进一步调查和减轻风险的情况下,不应将其用于下游应用。