Meta实验室推出的AI视觉模型Sapiens，专注于人类动作理解

2024年08月26日由 daydream 发表 886 0

Meta实验室近期推出了Sapiens，一款专为解析图像和视频中人类动作而设计的先进AI视觉模型。Sapiens以其独特的技术架构和广泛的应用潜力，在视觉处理领域引起了广泛关注。

微信截图_20240826111007

该模型的核心功能涵盖了二维姿态估计、身体部位分割、深度估计以及表面法线预测等关键任务。在二维姿态估计方面，Sapiens能够精准识别图像中人体的多个关键点，如关节位置，为姿势分析和动作识别提供基础数据。同时，它还具备身体部位分割的能力，能够自动识别并区分图像中的头部、躯干、四肢等不同区域，这对于虚拟试衣、医学成像等领域具有重要意义。

在深度估计方面，Sapiens能够从二维图像中提取出每个像素的深度信息，实现图像的三维化处理，这对于增强现实（AR）和自动驾驶等领域的应用至关重要。此外，该模型还能进行表面法线预测，预测图像中每个像素点的表面法线方向，为三维重建和物体几何形状分析提供重要参考。

技术层面，Sapiens采用了视觉变换器（Vision Transformers, ViT）架构，通过将图像分割为小块（patches）并进行细粒度特征提取，有效应对高分辨率输入。模型遵循编码器-解码器结构，其中编码器负责图像特征提取，解码器则针对特定任务进行推理。此外，Sapiens还通过自监督预训练方法，利用遮掩自编码器（Masked Autoencoder, MAE）学习鲁棒的特征表示，并在超过3亿张包含人类图像的数据集上进行训练，以提升其泛化能力。

Sapiens的推出标志着AI视觉技术在人类动作理解方面的又一重要进展，其强大的功能和广泛的应用潜力有望为虚拟现实、增强现实等多个领域带来革命性的变化。

文章来源：https://www.atyun.com/60263.html

标签：

Meta 视觉模型 Sapiens

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇摩尔线程推出开源音频理解大模型MooER

下一篇西湖心辰发布Lingo语音大模型，探索语音交互边界

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

优化 LLM 提示的成本、延迟和性能的 4 种技术