模型:

openai/imagegpt-small

英文

ImageGPT (小型模型)

ImageGPT (iGPT) 模型在 ImageNet ILSVRC 2012 上进行了预训练,包含了 1400 万张图像和 21,843 个类别,分辨率为 32x32。它是由 Chen 等人在 1234561 发表的论文中提出的,首次发布于 1234561。还可以参考官方的 1234561。

免责声明:发布 ImageGPT 模型的团队没有为该模型撰写模型卡片,因此此模型卡由 Hugging Face 团队编写。

模型简介

ImageGPT (iGPT) 是一种基于 Transformer 解码器的预训练模型(类似于 GPT),以自监督的方式在 ImageNet-21k 数据集上进行训练,分辨率为 32x32 像素。

该模型的目标是根据之前的像素值预测下一个像素值。

通过预训练模型,可以学习到对图像的内部表示,然后可以用于以下用途:

  • 提取对下游任务有用的特征:可以使用 ImageGPT 生成固定的图像特征,以便训练线性模型(如 sklearn 的逻辑回归模型或 SVM)。这也被称为 "线性探测"。
  • 进行(非)条件的图像生成。

使用目的和限制

可以使用原始模型进行特征提取或(非)条件的图像生成。有关 ImageGPT 变种的详细信息,请参见 1234561。

使用方法

以下是如何在 PyTorch 中使用该模型进行无条件的图像生成:

1234561

训练数据

ImageGPT 模型是在 1234561 上进行预训练的,该数据集包含了 1400 万张图像和 21k 个类别。

训练过程

预处理

首先将图像进行调整/缩放到相同的分辨率(32x32),并在 RGB 通道上进行归一化。接下来,进行颜色聚类。这意味着每个像素被转换为 512 个可能的聚类值之一。这样,最终得到的是一个由 32x32 = 1024 个像素值组成的序列,而不是 32x32x3 = 3072,对于基于 Transformer 的模型来说,3072 太大了,无法处理。

预训练

培训细节可以在该论文第 2 版的第 3.4 节中找到。

评估结果

有关在几个图像分类基准测试上的评估结果,请参阅原始论文。

BibTeX 条目和引用信息

1234561 1234561