苹果实现在手机上运行更大的人工智能模型

2023年12月26日 由 samoyed 发表 260 0

去年,高科技领域发生了激变,人工智能取代了元宇宙,成为了互联网最热门的话题。突然之间,每个人都在制作自己的大型语言模型(LLM),但它们大多在云端运行,并且需要强大的服务器硬件支持。智能手机没有足够的内存来运行最大型、最强大的模型,但苹果认为它有了一个解决方案。在一篇新的研究论文中,苹果的工程师们提出了一个保存LLM参数在iPhone的NAND闪存中的方法。


OIP-C


随着高通、英特尔和其他公司在最新的芯片中加入了机器学习硬件,你的下一个设备可能就具备了运行本地AI所需的一切。问题是,大型语言模型实在是太“大”了。在模型运行时可能有数万亿参数需要存放在内存中,而手机的RAM是非常有限的——特别是苹果手机,iPhone 15 Pro的RAM最高仅为8GB。


在数据中心运行这些模型的AI加速卡比类似的图形卡具有更多的内存。例如,英伟达H100配备了80GB的HBM2e内存,而gaming-focused RTX 4090 Ti中只有24GB的GDDR6X。


谷歌正致力于通过其新的Gemini模型增强移动LLM,其中包括一个专为智能手机设计的“纳米”版本。苹果的新研究旨在靠依赖NAND闪存存储,其存储空间通常至少是手机RAM的10倍以上,可以实现将一个更大的模型塞进智能手机。但主要的问题是速度——闪存的速度要慢得多。


苹果NAND速度提升


根据研究,团队使用了两种技术使他们的模型无需RAM也能运行。这两种方法都可以减少模型需要从存储器中加载的数据量。窗口化允许模型只加载最后几个token的参数,本质上是循环利用数据以减少存储访问时间。行列捆绑也被用来更有效地组织数据,从而使模型可以处理更大的数据块。


研究在扩展iPhone的LLM能力方面取得了成功。采用这种方法,LLM在标准CPU上运行的速度提升了4-5倍,在GPU上提升了20-25倍。或许最重要的是,iPhone可以运行内存安装的两倍大小的AI模型,这是通过将参数保存在内部存储器上实现的。研究的结论是,这种方法为在内存有限的设备上运行LLM铺平了道路。

文章来源:https://www.extremetech.com/mobile/apple-figures-out-how-to-run-larger-ai-models-on-a-phone
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消