Meta发布一系列新的AI模型,涵盖音频、文本和水印技术

2024年06月19日 由 daydream 发表 184 0

Meta公司的基础人工智能研究(FAIR)团队近日宣布发布一系列新的AI模型和工具,旨在服务广大研究人员。这些新发布的模型和工具主要涉及音频生成、文本到视觉以及水印等领域。


微信截图_20240619101215


“我们希望通过公开分享我们的早期研究成果,能够激励更多的研究者参与到AI的迭代发展中来,并以一种负责任的方式推动AI的进步。”Meta公司在一份新闻稿中如此表示。


微信截图_20240619103218


音频创作模型JASCO与水印工具AudioSeal


首先,Meta推出了名为JASCO的新AI模型,全称为Joint Audio and Symbolic Conditioning for Temporally Controlled Text-to-Music Generation(基于时间控制的文本到音乐生成的联合音频和符号条件)。


JASCO能够接受不同的音频输入,如和弦或节拍,以优化AI生成的音乐声音。根据FAIR研究人员的论文,JASCO允许用户通过文本调整生成音乐的各种特征,如和弦、鼓声和旋律,以完善最终的音乐作品。


FAIR计划将JASCO的推理代码作为AudioCraft AI音频模型库的一部分,以MIT许可证的形式发布,而预训练模型将以非商业性的Creative Commons许可证形式提供。


此外,Meta还推出了AudioSeal,这是一款专门用于给AI生成的语音添加水印的工具,也是Meta用来识别AI制作内容的技术之一。


“AudioSeal是首款专为AI生成语音的本地化检测而设计的音频水印技术,它能够在更长的音频片段中识别出AI生成的部分。”Meta公司在新闻稿中这样描述。


AudioSeal可以在较长的音频片段中精确检测AI生成的音频。Meta表示,这种更准确的本地化检测“能够实现更快、更有效的检测”,并且使检测速度提高了485倍。与其他模型不同,AudioSeal将以商业许可证的形式发布。


Meta鼓励研究人员在其他图像和文本模型上进行创新


FAIR还将发布其多模态文本模型变色龙(Chameleon)的两个版本,仅供研究使用。


变色龙7B和34B模型允许用户将模型应用于需要视觉和文本理解的任务,例如图像描述。


然而,Meta在新闻稿中明确表示,“目前”不会发布变色龙的图像生成模型,只有与文本相关的模型可供研究人员使用。


此外,该公司还将向研究人员提供其多令牌预测方法,这种方法能够同时对多个未来单词进行语言模型训练,而非一次一个。该方法将仅以非商业和仅供研究的许可证形式提供。

文章来源:https://venturebeat.com/ai/meta-releases-flurry-of-new-ai-models-for-audio-text-and-watermarking/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消