模型:

ai-forever/ruclip-vit-base-patch32-384

英文

ruclip-vit-base-patch32-384

RuCLIP(俄语对比性语言-图像再训练)是一个多模态模型,用于获取图像和文本的相似性并重新排列标题和图片。RuCLIP基于零样本迁移、计算机视觉、自然语言处理和多模态学习的大量工作。

该模型由 Sber AI SberDevices 团队训练。

  • 任务:文本排序;图像排序;零样本图像分类;
  • 类型:编码器
  • 参数数量:150M
  • 训练数据量:2.4亿个文本-图像对
  • 语言:俄语
  • 文本长度:77
  • Transformer层数:12
  • Transformer宽度:512
  • Transformer头数:8
  • 图像尺寸:384
  • 视觉层数:12
  • 视觉宽度:768
  • 视觉块尺寸:32

使用 Github

pip install ruclip
clip, processor = ruclip.load("ruclip-vit-base-patch32-384", device="cuda")

性能

我们在以下数据集上评估了性能:

Dataset Metric Name Metric Result
Food101 acc 0.642
CIFAR10 acc 0.862
CIFAR100 acc 0.529
Birdsnap acc 0.161
SUN397 acc 0.510
Stanford Cars acc 0.572
DTD acc 0.390
MNIST acc 0.404
STL10 acc 0.946
PCam acc 0.506
CLEVR acc 0.188
Rendered SST2 acc 0.508
ImageNet acc 0.451
FGVC Aircraft mean-per-class 0.053
Oxford Pets mean-per-class 0.587
Caltech101 mean-per-class 0.834
Flowers102 mean-per-class 0.449
HatefulMemes roc-auc 0.537

作者