Meta公布了五项重大的新AI模型和研究

2024年06月20日由 samoyed 发表 111 0

Meta公布了五项重大的新AI模型和研究，包括能够同时处理文本和图像的多模态系统、下一代语言模型、音乐生成、AI语音检测，以及提高AI系统多样性的努力。

这些发布成果来自Meta的基础AI研究（FAIR）团队，该团队十多年来一直专注于通过开放研究和合作推动AI发展。随着AI的快速创新，Meta认为与全球社区合作至关重要。

meta-ai-models-open-source-chameleon-multi-modal-jasco-artificial-intelligence-2048x1483

“通过公开分享这项研究，我们希望激发迭代并最终以负责任的方式推动AI的发展，”Meta表示。

变色龙（Chameleon）：多模态文本和图像处理

在发布的成果中，Meta的“变色龙”模型是关键组件之一，其研究许可下。变色龙是一系列多模态模型，能够同时理解和生成文本和图像——这与大多数通常仅为单模态的大型语言模型不同。

“就像人类可以同时处理文字和图像一样，变色龙也可以同时处理和提供图像和文本，”Meta解释说。“变色龙可以接受任何组合的文本和图像作为输入，并输出任何组合的文本和图像。”

潜在用例几乎无穷无尽，从生成创意标题到使用文本和图像提示新场景。

多token预测以加快语言模型训练

Meta还发布了用于代码补全的预训练模型，这些模型使用了“多token预测”技术，并在非商业研究许可下发布。传统的语言模型训练通过仅预测下一个单词来提高效率低下。多token模型可以同时预测多个未来的单词以加快训练速度。

“虽然方法简单且可扩展，但它也效率低下。它需要比儿童学习相同程度的语言流利度所需的文本多几个数量级，”Meta表示。

JASCO：增强的文本到音乐模型

在创意方面，Meta的JASCO允许从文本生成音乐片段，同时通过接受和弦和节拍等输入来提供更多的控制。

“虽然现有的文本到音乐模型如MusicGen主要依赖文本输入来生成音乐，但我们的新模型JASCO能够接受各种输入，如和弦或节拍，以提高对生成音乐输出的控制，”Meta解释说。

AudioSeal：检测AI生成的语音

Meta声称AudioSeal是第一个旨在检测AI生成语音的音频水印系统。它能够比以前的方法快达485倍地识别出大型音频片段中由AI生成的特定片段。

“AudioSeal以商业许可发布。这是我们分享的几条负责任的研究路线之一，旨在帮助防止生成式AI工具的滥用，”Meta表示。

提高文本到图像的多样性

另一个重要的发布旨在提高文本到图像模型的多样性，这些模型经常表现出地理和文化偏见。

Meta开发了自动指标来评估潜在的地理差异，并进行了一项大型的65,000多项注释研究，以了解全球各地的人们如何感知地理表现。

“这使得AI生成的图像更加多样化和更好地代表各种群体，”Meta表示。相关的代码和注释已发布，以帮助提高生成式模型的多样性。

通过公开分享这些开创性的模型，Meta表示它希望促进AI社区内的协作并推动创新。

文章来源：https://www.artificialintelligence-news.com/2024/06/19/meta-unveils-ai-models-multi-modal-processing-music-generation-more/

标签：

Meta

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇微软发布Florence-2模型，统一处理多视觉任务

下一篇自我改进的LLM系统将成为一个大趋势

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

Sam Altman离职事件时间线

语音助手崛起

openwebtext glue shunk031/JGLUE piqa wikitext sciq EleutherAI/lambada_openai facebook/flores

AI热点

行业学习机器学习人工智能公司板人工智能未来机器人视觉识别

AI工具

更多工具 »

ChatGPT

OpenAI旗下AI对话工具

Midjourney

AI图像和插画生成工具，测试测试测试测试测试测测试

Stable Diffusion

StabilityAI推出的文本到图像生成AI

GitHub Copilot

GitHub AI编程工具

文心一言

百度推出的基于文心大模型的AI对话互动工具

热门企业

更多企业 »

热门职位

更多职位 »

深度学习软件工程师

Maluuba

20000~40000/月

Unity技术经理

Cisco

25000~30000/月深圳市

高级数据分析工程师

PilotAILabs

30000~60000/年深圳市