ImageGPT (小型模型)

ImageGPT (iGPT) 模型在 ImageNet ILSVRC 2012 上进行了预训练，包含了 1400 万张图像和 21,843 个类别，分辨率为 32x32。它是由 Chen 等人在 1234561 发表的论文中提出的，首次发布于 1234561。还可以参考官方的 1234561。

免责声明：发布 ImageGPT 模型的团队没有为该模型撰写模型卡片，因此此模型卡由 Hugging Face 团队编写。

模型简介

ImageGPT (iGPT) 是一种基于 Transformer 解码器的预训练模型（类似于 GPT），以自监督的方式在 ImageNet-21k 数据集上进行训练，分辨率为 32x32 像素。

该模型的目标是根据之前的像素值预测下一个像素值。

通过预训练模型，可以学习到对图像的内部表示，然后可以用于以下用途：

提取对下游任务有用的特征：可以使用 ImageGPT 生成固定的图像特征，以便训练线性模型（如 sklearn 的逻辑回归模型或 SVM）。这也被称为 "线性探测"。
进行（非）条件的图像生成。

使用目的和限制

可以使用原始模型进行特征提取或（非）条件的图像生成。有关 ImageGPT 变种的详细信息，请参见 1234561。

使用方法

以下是如何在 PyTorch 中使用该模型进行无条件的图像生成：

1234561

训练数据

ImageGPT 模型是在 1234561 上进行预训练的，该数据集包含了 1400 万张图像和 21k 个类别。

训练过程

预处理

首先将图像进行调整/缩放到相同的分辨率（32x32），并在 RGB 通道上进行归一化。接下来，进行颜色聚类。这意味着每个像素被转换为 512 个可能的聚类值之一。这样，最终得到的是一个由 32x32 = 1024 个像素值组成的序列，而不是 32x32x3 = 3072，对于基于 Transformer 的模型来说，3072 太大了，无法处理。

预训练

培训细节可以在该论文第 2 版的第 3.4 节中找到。

评估结果

有关在几个图像分类基准测试上的评估结果，请参阅原始论文。

BibTeX 条目和引用信息

1234561 1234561

作者:

OpenAI

数据集大小:

316.67 MB