Meta公布了五项重大的新AI模型和研究

2024年06月20日 由 samoyed 发表 111 0

Meta公布了五项重大的新AI模型和研究,包括能够同时处理文本和图像的多模态系统、下一代语言模型、音乐生成、AI语音检测,以及提高AI系统多样性的努力。


这些发布成果来自Meta的基础AI研究(FAIR)团队,该团队十多年来一直专注于通过开放研究和合作推动AI发展。随着AI的快速创新,Meta认为与全球社区合作至关重要。


meta-ai-models-open-source-chameleon-multi-modal-jasco-artificial-intelligence-2048x1483


“通过公开分享这项研究,我们希望激发迭代并最终以负责任的方式推动AI的发展,”Meta表示。


变色龙(Chameleon):多模态文本和图像处理


在发布的成果中,Meta的“变色龙”模型是关键组件之一,其研究许可下。变色龙是一系列多模态模型,能够同时理解和生成文本和图像——这与大多数通常仅为单模态的大型语言模型不同。


“就像人类可以同时处理文字和图像一样,变色龙也可以同时处理和提供图像和文本,”Meta解释说。“变色龙可以接受任何组合的文本和图像作为输入,并输出任何组合的文本和图像。”


潜在用例几乎无穷无尽,从生成创意标题到使用文本和图像提示新场景。


多token预测以加快语言模型训练


Meta还发布了用于代码补全的预训练模型,这些模型使用了“多token预测”技术,并在非商业研究许可下发布。传统的语言模型训练通过仅预测下一个单词来提高效率低下。多token模型可以同时预测多个未来的单词以加快训练速度。


“虽然方法简单且可扩展,但它也效率低下。它需要比儿童学习相同程度的语言流利度所需的文本多几个数量级,”Meta表示。


JASCO:增强的文本到音乐模型


在创意方面,Meta的JASCO允许从文本生成音乐片段,同时通过接受和弦和节拍等输入来提供更多的控制。


“虽然现有的文本到音乐模型如MusicGen主要依赖文本输入来生成音乐,但我们的新模型JASCO能够接受各种输入,如和弦或节拍,以提高对生成音乐输出的控制,”Meta解释说。


AudioSeal:检测AI生成的语音


Meta声称AudioSeal是第一个旨在检测AI生成语音的音频水印系统。它能够比以前的方法快达485倍地识别出大型音频片段中由AI生成的特定片段。


“AudioSeal以商业许可发布。这是我们分享的几条负责任的研究路线之一,旨在帮助防止生成式AI工具的滥用,”Meta表示。


提高文本到图像的多样性


另一个重要的发布旨在提高文本到图像模型的多样性,这些模型经常表现出地理和文化偏见。


Meta开发了自动指标来评估潜在的地理差异,并进行了一项大型的65,000多项注释研究,以了解全球各地的人们如何感知地理表现。


“这使得AI生成的图像更加多样化和更好地代表各种群体,”Meta表示。相关的代码和注释已发布,以帮助提高生成式模型的多样性。


通过公开分享这些开创性的模型,Meta表示它希望促进AI社区内的协作并推动创新。

文章来源:https://www.artificialintelligence-news.com/2024/06/19/meta-unveils-ai-models-multi-modal-processing-music-generation-more/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
写评论取消
回复取消