Meta发布了Llama 3.2,这是其开放AI模型系列的一次重要更新。此次更新旨在使强大的AI功能更加易于获取和多样化。
Llama 3.2系列包含四个新模型:两个分别为10亿参数和30亿参数的小型模型,适用于边缘和移动设备;另外两个分别为110亿参数和900亿参数的大型模型,为Llama生态系统引入了视觉处理能力。
10亿参数和30亿参数的模型对于在设备上运行AI来说是一个重要的进展。支持上下文长度达12,000个令牌,这些模型擅长摘要、指令执行和文本重写等任务,并且能够在本地边缘设备上运行。据称,这些小型模型在其尺寸级别上达到了业界领先的表现水平。
值得注意的是,这些轻量级模型发布时即兼容高通和联发科的硬件,并针对Arm处理器进行了优化。这种广泛的兼容性可能会加速其在各种移动和物联网设备中的应用。
110亿参数和900亿参数的视觉模型是Llama首次涉足多模态AI领域。这些模型能够理解和推理图像,支持文档分析、图像描述以及视觉问答等任务。据报道,它们在图像识别和视觉理解基准测试中的表现与领先的闭源模型相媲美。
新的视觉模型可以作为现有纯文本模型的直接替换,允许开发者轻松地将图像理解能力添加到基于Llama的应用程序中。
此外,Meta还推出了Llama Stack Distribution,以简化开发者和企业围绕Llama构建应用程序的过程。
该系统的核心是Llama CLI,一个命令行界面,它简化了Llama Stack分发版本的构建、配置和运行过程。此工具简化了部署流程,让开发者能够专注于应用程序逻辑而非设置细节。
为了确保广泛的可访问性,Meta提供了多种编程语言的客户端代码,包括Python、Node.js、Kotlin和Swift,从而可以集成到不同的应用程序和平台中。
Llama Stack提供了灵活的部署选项,预构建的Docker容器为分发服务器和代理API提供者提供了统一的环境,减少了配置错误。Meta根据不同规模的操作定制了解决方案,从单节点分布用于个人机器到通过与AWS、Databricks、Fireworks和Together AI的合作提供的可扩展云基础部署。
通过PyTorch ExecuTorch,iOS上的设备分发变得可能,促进了直接在移动设备上运行的AI应用程序的发展。这使得开发者能够创建具备本地AI能力的应用程序,增强了隐私保护并减少了延迟。
需要内部AI能力的企业,由于安全、合规或性能考虑,可以选择由Dell Technologies支持的本地部署。
通过将多个API提供商打包成单一端点并与合作伙伴紧密合作来调整Llama Stack API,Meta为开发人员在这些不同环境中创造了一致且简化的体验。这种方法大大降低了使用Llama模型构建应用的复杂度,可能促进AI创新在广泛应用场景中的发展。
在安全性方面,Meta也做出了重要更新。此次发布的Llama Guard 3 11B Vision可用于图文输入输出的内容审核。还有一个经过优化适用于边缘设备的小型Llama Guard 3 1B模型可供选择。
总的来说,Llama 3.2标志着Meta开放AI工作的重要拓展。Llama 3.2模型可以在官方Llama网站和Hugging Face上下载。用户也可以通过Meta的合作伙伴平台访问这些模型。此次发布的模型采用BFloat16格式,并计划探索量化版本以实现更快的性能。