Meta公司的基础人工智能研究(FAIR)团队近日宣布发布一系列新的AI模型和工具,旨在服务广大研究人员。这些新发布的模型和工具主要涉及音频生成、文本到视觉以及水印等领域。
“我们希望通过公开分享我们的早期研究成果,能够激励更多的研究者参与到AI的迭代发展中来,并以一种负责任的方式推动AI的进步。”Meta公司在一份新闻稿中如此表示。
音频创作模型JASCO与水印工具AudioSeal
首先,Meta推出了名为JASCO的新AI模型,全称为Joint Audio and Symbolic Conditioning for Temporally Controlled Text-to-Music Generation(基于时间控制的文本到音乐生成的联合音频和符号条件)。
JASCO能够接受不同的音频输入,如和弦或节拍,以优化AI生成的音乐声音。根据FAIR研究人员的论文,JASCO允许用户通过文本调整生成音乐的各种特征,如和弦、鼓声和旋律,以完善最终的音乐作品。
FAIR计划将JASCO的推理代码作为AudioCraft AI音频模型库的一部分,以MIT许可证的形式发布,而预训练模型将以非商业性的Creative Commons许可证形式提供。
此外,Meta还推出了AudioSeal,这是一款专门用于给AI生成的语音添加水印的工具,也是Meta用来识别AI制作内容的技术之一。
“AudioSeal是首款专为AI生成语音的本地化检测而设计的音频水印技术,它能够在更长的音频片段中识别出AI生成的部分。”Meta公司在新闻稿中这样描述。
AudioSeal可以在较长的音频片段中精确检测AI生成的音频。Meta表示,这种更准确的本地化检测“能够实现更快、更有效的检测”,并且使检测速度提高了485倍。与其他模型不同,AudioSeal将以商业许可证的形式发布。
Meta鼓励研究人员在其他图像和文本模型上进行创新
FAIR还将发布其多模态文本模型变色龙(Chameleon)的两个版本,仅供研究使用。
变色龙7B和34B模型允许用户将模型应用于需要视觉和文本理解的任务,例如图像描述。
然而,Meta在新闻稿中明确表示,“目前”不会发布变色龙的图像生成模型,只有与文本相关的模型可供研究人员使用。
此外,该公司还将向研究人员提供其多令牌预测方法,这种方法能够同时对多个未来单词进行语言模型训练,而非一次一个。该方法将仅以非商业和仅供研究的许可证形式提供。