艾伦人工智能研究所(Allen Institute for AI,简称Ai2)宣布推出Molmo系列,这是一组能够处理文本和图像的开源语言模型。此次发布正值Meta Platforms Inc.举办Connect 2024产品发布会之际,Meta也推出了自家的开源语言模型系列Llama 3.2,其中两款模型同样具备多模态处理能力,与Molmo功能相似。
Ai2是一家位于西雅图的非营利性机构,专注于机器学习研究。新推出的Molmo模型系列包含四个神经网络,其中最高级模型拥有720亿参数,硬件效率最高的模型则包含10亿参数,其余两个模型各含70亿参数。
除了能够响应自然语言指令外,Molmo系列的所有算法均具备多模态处理能力,能够识别图像中的物体、进行计数并描述。此外,这些模型还能执行相关任务,如解释图表中的数据可视化。
在内部评估中,Ai2使用11项基准测试将Molmo与多个专有大型语言模型进行了比较。结果显示,拥有720亿参数的Molmo版本得分为81.2,略优于OpenAI的GPT-4o模型。而两款含70亿参数的Molmo版本则与OpenAI模型相差不到5分。
系列中最小的模型,包含10亿参数,虽然处理能力较为有限,但Ai2表示其性能仍优于参数数量为其10倍的某些算法。此外,该模型体积小巧,足以在移动设备上运行。
Molmo系列强大的处理能力部分归功于其训练数据集。该数据集包含数十万张图像,每张图像均附有对描绘物体的详细描述。Ai2指出,通过深入研究这些描述,Molmo在物体识别任务上的表现优于那些基于低质量数据训练的大型模型。
与此同时,Meta发布的Llama 3.2系列也包含四个开源神经网络,其中前两个模型分别拥有90亿和110亿参数,采用多模态架构,能够处理文本和图像。Meta表示,这两款模型在图像识别任务上的准确性与GPT-4o的缩小版GPT4o-mini相当。
Llama 3.2系列中的另外两款模型则专注于文本处理任务,其中较高级的版本包含30亿参数,另一版本则约为其三分之一。Meta称,这两款模型在多种任务上的表现优于同等规模的算法。