Meta发布一系列新的AI模型，涵盖音频、文本和水印技术

2024年06月19日由 daydream 发表 398 0

Meta公司的基础人工智能研究（FAIR）团队近日宣布发布一系列新的AI模型和工具，旨在服务广大研究人员。这些新发布的模型和工具主要涉及音频生成、文本到视觉以及水印等领域。

微信截图_20240619101215

“我们希望通过公开分享我们的早期研究成果，能够激励更多的研究者参与到AI的迭代发展中来，并以一种负责任的方式推动AI的进步。”Meta公司在一份新闻稿中如此表示。

微信截图_20240619103218

音频创作模型JASCO与水印工具AudioSeal

首先，Meta推出了名为JASCO的新AI模型，全称为Joint Audio and Symbolic Conditioning for Temporally Controlled Text-to-Music Generation（基于时间控制的文本到音乐生成的联合音频和符号条件）。

JASCO能够接受不同的音频输入，如和弦或节拍，以优化AI生成的音乐声音。根据FAIR研究人员的论文，JASCO允许用户通过文本调整生成音乐的各种特征，如和弦、鼓声和旋律，以完善最终的音乐作品。

FAIR计划将JASCO的推理代码作为AudioCraft AI音频模型库的一部分，以MIT许可证的形式发布，而预训练模型将以非商业性的Creative Commons许可证形式提供。

此外，Meta还推出了AudioSeal，这是一款专门用于给AI生成的语音添加水印的工具，也是Meta用来识别AI制作内容的技术之一。

“AudioSeal是首款专为AI生成语音的本地化检测而设计的音频水印技术，它能够在更长的音频片段中识别出AI生成的部分。”Meta公司在新闻稿中这样描述。

AudioSeal可以在较长的音频片段中精确检测AI生成的音频。Meta表示，这种更准确的本地化检测“能够实现更快、更有效的检测”，并且使检测速度提高了485倍。与其他模型不同，AudioSeal将以商业许可证的形式发布。

Meta鼓励研究人员在其他图像和文本模型上进行创新

FAIR还将发布其多模态文本模型变色龙（Chameleon）的两个版本，仅供研究使用。

变色龙7B和34B模型允许用户将模型应用于需要视觉和文本理解的任务，例如图像描述。

然而，Meta在新闻稿中明确表示，“目前”不会发布变色龙的图像生成模型，只有与文本相关的模型可供研究人员使用。

此外，该公司还将向研究人员提供其多令牌预测方法，这种方法能够同时对多个未来单词进行语言模型训练，而非一次一个。该方法将仅以非商业和仅供研究的许可证形式提供。

文章来源：https://venturebeat.com/ai/meta-releases-flurry-of-new-ai-models-for-audio-text-and-watermarking/

标签：

Meta AI 模型

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 DeepSeek发布开源Coder V2模型，超越GPT-4 Turbo

下一篇 OpenVLA：推动机器人技术的开源通用模型

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来

每个人都应该知道的48个AI术语

openwebtext glue shunk031/JGLUE piqa wikitext sciq EleutherAI/lambada_openai facebook/flores

AI热点

行业学习机器学习人工智能公司板人工智能未来机器人视觉识别

AI工具

更多工具 »

火山写作

字节跳动旗下团队推出的免费AI英语写作助手

Stable Diffusion

StabilityAI推出的文本到图像生成AI

GitHub Copilot

GitHub AI编程工具

Adobe Firefly

Adobe最新推出的AI图片生成工具

文心一格

AI艺术和创意辅助平台

本周热门

热门企业

热门职位

Maluuba

20000~40000/月

Unity技术经理

Cisco

25000~30000/月深圳市

高级数据分析工程师

PilotAILabs

30000~60000/年深圳市