Meta实验室推出的AI视觉模型Sapiens,专注于人类动作理解

2024年08月26日 由 daydream 发表 345 0

Meta实验室近期推出了Sapiens,一款专为解析图像和视频中人类动作而设计的先进AI视觉模型。Sapiens以其独特的技术架构和广泛的应用潜力,在视觉处理领域引起了广泛关注。


微信截图_20240826111007


该模型的核心功能涵盖了二维姿态估计、身体部位分割、深度估计以及表面法线预测等关键任务。在二维姿态估计方面,Sapiens能够精准识别图像中人体的多个关键点,如关节位置,为姿势分析和动作识别提供基础数据。同时,它还具备身体部位分割的能力,能够自动识别并区分图像中的头部、躯干、四肢等不同区域,这对于虚拟试衣、医学成像等领域具有重要意义。


在深度估计方面,Sapiens能够从二维图像中提取出每个像素的深度信息,实现图像的三维化处理,这对于增强现实(AR)和自动驾驶等领域的应用至关重要。此外,该模型还能进行表面法线预测,预测图像中每个像素点的表面法线方向,为三维重建和物体几何形状分析提供重要参考。


技术层面,Sapiens采用了视觉变换器(Vision Transformers, ViT)架构,通过将图像分割为小块(patches)并进行细粒度特征提取,有效应对高分辨率输入。模型遵循编码器-解码器结构,其中编码器负责图像特征提取,解码器则针对特定任务进行推理。此外,Sapiens还通过自监督预训练方法,利用遮掩自编码器(Masked Autoencoder, MAE)学习鲁棒的特征表示,并在超过3亿张包含人类图像的数据集上进行训练,以提升其泛化能力。


Sapiens的推出标志着AI视觉技术在人类动作理解方面的又一重要进展,其强大的功能和广泛的应用潜力有望为虚拟现实、增强现实等多个领域带来革命性的变化。

文章来源:https://www.atyun.com/60263.html
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
写评论取消
回复取消