Ai2发布多模态开源语言模型Molmo系列

2024年09月26日由 daydream 发表 356 0

艾伦人工智能研究所（Allen Institute for AI，简称Ai2）宣布推出Molmo系列，这是一组能够处理文本和图像的开源语言模型。此次发布正值Meta Platforms Inc.举办Connect 2024产品发布会之际，Meta也推出了自家的开源语言模型系列Llama 3.2，其中两款模型同样具备多模态处理能力，与Molmo功能相似。

微信截图_20240926112732

Ai2是一家位于西雅图的非营利性机构，专注于机器学习研究。新推出的Molmo模型系列包含四个神经网络，其中最高级模型拥有720亿参数，硬件效率最高的模型则包含10亿参数，其余两个模型各含70亿参数。

除了能够响应自然语言指令外，Molmo系列的所有算法均具备多模态处理能力，能够识别图像中的物体、进行计数并描述。此外，这些模型还能执行相关任务，如解释图表中的数据可视化。

在内部评估中，Ai2使用11项基准测试将Molmo与多个专有大型语言模型进行了比较。结果显示，拥有720亿参数的Molmo版本得分为81.2，略优于OpenAI的GPT-4o模型。而两款含70亿参数的Molmo版本则与OpenAI模型相差不到5分。

系列中最小的模型，包含10亿参数，虽然处理能力较为有限，但Ai2表示其性能仍优于参数数量为其10倍的某些算法。此外，该模型体积小巧，足以在移动设备上运行。

Molmo系列强大的处理能力部分归功于其训练数据集。该数据集包含数十万张图像，每张图像均附有对描绘物体的详细描述。Ai2指出，通过深入研究这些描述，Molmo在物体识别任务上的表现优于那些基于低质量数据训练的大型模型。

与此同时，Meta发布的Llama 3.2系列也包含四个开源神经网络，其中前两个模型分别拥有90亿和110亿参数，采用多模态架构，能够处理文本和图像。Meta表示，这两款模型在图像识别任务上的准确性与GPT-4o的缩小版GPT4o-mini相当。

Llama 3.2系列中的另外两款模型则专注于文本处理任务，其中较高级的版本包含30亿参数，另一版本则约为其三分之一。Meta称，这两款模型在多种任务上的表现优于同等规模的算法。

文章来源：https://techcrunch.com/2024/09/25/ai2s-molmo-shows-open-source-can-meet-and-beat-closed-multimodal-models/

标签：

Ai2 语言模型 Molmo

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 Meta发布Llama 3.2：开放AI模型的重大更新

下一篇中国电信AI研究院开创先河，星辰语义大模型TeleChat2-115B正式开源

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来