苹果AI研究新进展:3D虚拟形象创制与移动设备语言模型优化

2023年12月21日 由 daydream 发表 228 0

苹果公司,这个几乎成为技术创新代名词的公司,再次将自己置于人工智能革命的前沿。


微信截图_20231221115827


苹果公司最近通过两篇新论文宣布在人工智能研究方面取得了重大进展,这些研究介绍了用于3D化身和高效语言模型推理的新技术。这些进步可能会带来更具沉浸感的视觉体验,并允许复杂的AI系统运行在消费者设备上,如iPhone和iPad。


在第一篇研究论文中,苹果科学家提出了HUGS(人类高斯溅射)技术,用于从短的单目视频(即从单个摄像机拍摄的视频)生成动画3D化身。"我们的方法只需用一个单目视频,视频中有(50-100)帧,就能在30分钟内自动学会分离静态场景和完全可动画的人类化身." 首席作者穆罕默德·科卡巴斯(Muhammed Kocabas)说。


HUGS使用3D高斯溅射技术来表示人类和背景场景,这是一种高效的渲染技术。人类模型是从一个名为SMPL的统计身体形状模型初始化的。但HUGS允许高斯偏离,使其能够捕捉到像衣服和头发这样的细节。


一个新颖的神经变形模块使用线性混合蒙皮技术以逼真的方式动画化高斯,这种协调运动避免了重新定位化身时出现的失真。科卡巴斯表示,HUGS "允许对人类进行新姿势合成和对人类及场景进行新视角合成。"


与以往的化身生成方法相比,HUGS在训练和渲染方面的速度快达100倍。通过对一个典型的游戏GPU系统进行30分钟的优化,研究人员展示了逼真的结果。HUGS还在3D重建质量方面超越了Vid2Avatar和NeuMan等最先进的技术。


苹果研究人员的这项3D建模能力是一项真正令人印象深刻的成果。实时性能和从实景视频创建化身的能力可能很快就会为虚拟试穿、远程出席和合成媒体解锁新可能性。想象一下,如果你可以在iPhone相机上创建这样的新3D场景会有什么可能性!


在AI推理中弥合内存差距


在第二篇论文中,苹果研究人员解决了在内存有限的设备上部署大型语言模型(LLMs)的关键挑战。现代自然语言模型,如GPT-4,包含数千亿个参数,这使得在消费级硬件上进行推理变得代价高昂。


所提出的系统最小化了在推理过程中从闪存传输数据到稀缺的DRAM。"我们的方法涉及构建一个与闪记内存行为协调一致的推理成本模型,指导我们在两个关键领域进行优化:减少从闪存传输的数据量和以更大、更连续的块读取数据." 首席作者克文·阿里扎德(Keivan Alizadeh)解释道。


引入了两种主要技术。“窗口化”重用了最近推理的激活,而“行列打包”则通过一起存储行和列来读取更大的数据块。在苹果M1 Max CPU上,这些方法将推理延迟与原始加载相比提高了4-5倍。在GPU上,速度提升达到了20-25倍。


"这一突破对于在资源有限的环境中部署高级LLM尤为重要,扩大了它们的适用性和可访问性。"共同作者梅尔达德·法拉杰塔巴尔(Mehrdad Farajtabar)表示。这些优化很快可能允许在iPhone、iPad和其他移动设备上顺畅运行复杂的AI助手和聊天机器人。


苹果的战略愿景


这两篇论文都展示了苹果在AI研究和应用方面不断增长的领导力。虽然前景看好,但专家警告说,苹果在将这些技术纳入消费者产品时需要非常谨慎和负责。从保护隐私到减轻滥用风险,必须考虑到社会影响。


苹果可能将这些创新整合到其产品线中,很明显,公司不仅在增强其设备,还在预测AI融合服务的未来需求。通过允许在内存有限的设备上运行更复杂的AI模型,苹果可能正在为一类新的应用和服务搭建舞台,这些应用和服务利用了LLMs的能力,用之前无法实现的方式。



如果谨慎应用,苹果的最新创新可能会将人工智能推向一个新的水平。在便携设备上的逼真数字化身和强大的AI助手曾经看似遥不可及——但得益于苹果的科学家们,未来正在迅速成为现实。

文章来源:https://venturebeat.com/ai/generative-ai-is-reshaping-knowledge-work-are-you-ready/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消