模型:
microsoft/xclip-large-patch14-16-frames
X-CLIP模型(大型,分辨率为14的补丁)在 Kinetics-400 上进行了完全监督的训练。它是由Ni等人在 Expanding Language-Image Pretrained Models for General Video Recognition 论文中介绍并于 this repository 首次发布的。
该模型使用16帧视频进行训练,分辨率为336x336。
免责声明:发布X-CLIP的团队没有为这个模型编写模型卡片,因此这个模型卡片是由Hugging Face团队编写的。
X-CLIP是 CLIP 在通用视频-语言理解上的最小扩展。模型以对比的方式在(视频,文本)对上进行训练。
这使得该模型可以用于零样本、少样本或完全监督的视频分类和视频-文本检索等任务。
您可以使用原始模型来确定文本与给定视频的匹配程度。请参阅 model hub ,了解您感兴趣任务的微调版本。
有关代码示例,请参考 documentation 。
该模型使用 Kinetics-400 进行了训练。
有关训练期间预处理的详细信息,请参见 here 。
有关验证期间预处理的详细信息,请参见 here 。
在验证期间,首先调整每个帧的较短边的大小,然后进行中心裁剪以达到固定尺寸的分辨率(如224x224)。接下来,使用ImageNet的均值和标准差对帧进行RGB通道标准化。
该模型的Top-1准确率为87.7%,Top-5准确率为97.4%。