苹果实现在手机上运行更大的人工智能模型

2023年12月26日由 samoyed 发表 260 0

去年，高科技领域发生了激变，人工智能取代了元宇宙，成为了互联网最热门的话题。突然之间，每个人都在制作自己的大型语言模型（LLM），但它们大多在云端运行，并且需要强大的服务器硬件支持。智能手机没有足够的内存来运行最大型、最强大的模型，但苹果认为它有了一个解决方案。在一篇新的研究论文中，苹果的工程师们提出了一个保存LLM参数在iPhone的NAND闪存中的方法。

OIP-C

随着高通、英特尔和其他公司在最新的芯片中加入了机器学习硬件，你的下一个设备可能就具备了运行本地AI所需的一切。问题是，大型语言模型实在是太“大”了。在模型运行时可能有数万亿参数需要存放在内存中，而手机的RAM是非常有限的——特别是苹果手机，iPhone 15 Pro的RAM最高仅为8GB。

在数据中心运行这些模型的AI加速卡比类似的图形卡具有更多的内存。例如，英伟达H100配备了80GB的HBM2e内存，而gaming-focused RTX 4090 Ti中只有24GB的GDDR6X。

谷歌正致力于通过其新的Gemini模型增强移动LLM，其中包括一个专为智能手机设计的“纳米”版本。苹果的新研究旨在靠依赖NAND闪存存储，其存储空间通常至少是手机RAM的10倍以上，可以实现将一个更大的模型塞进智能手机。但主要的问题是速度——闪存的速度要慢得多。

苹果NAND速度提升

根据研究，团队使用了两种技术使他们的模型无需RAM也能运行。这两种方法都可以减少模型需要从存储器中加载的数据量。窗口化允许模型只加载最后几个token的参数，本质上是循环利用数据以减少存储访问时间。行列捆绑也被用来更有效地组织数据，从而使模型可以处理更大的数据块。

研究在扩展iPhone的LLM能力方面取得了成功。采用这种方法，LLM在标准CPU上运行的速度提升了4-5倍，在GPU上提升了20-25倍。或许最重要的是，iPhone可以运行内存安装的两倍大小的AI模型，这是通过将参数保存在内部存储器上实现的。研究的结论是，这种方法为在内存有限的设备上运行LLM铺平了道路。

文章来源：https://www.extremetech.com/mobile/apple-figures-out-how-to-run-larger-ai-models-on-a-phone

标签：

苹果

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇昆仑万维「天工SkyAgents」Beta版发布，用自然语言打造个性AI智能体

下一篇苹果突破本地部署LLM，开源Ferret模型引关注

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

Sam Altman离职事件时间线