模型:
openai/imagegpt-small
ImageGPT (iGPT) 模型在 ImageNet ILSVRC 2012 上进行了预训练,包含了 1400 万张图像和 21,843 个类别,分辨率为 32x32。它是由 Chen 等人在 1234561 发表的论文中提出的,首次发布于 1234561。还可以参考官方的 1234561。
免责声明:发布 ImageGPT 模型的团队没有为该模型撰写模型卡片,因此此模型卡由 Hugging Face 团队编写。
ImageGPT (iGPT) 是一种基于 Transformer 解码器的预训练模型(类似于 GPT),以自监督的方式在 ImageNet-21k 数据集上进行训练,分辨率为 32x32 像素。
该模型的目标是根据之前的像素值预测下一个像素值。
通过预训练模型,可以学习到对图像的内部表示,然后可以用于以下用途:
可以使用原始模型进行特征提取或(非)条件的图像生成。有关 ImageGPT 变种的详细信息,请参见 1234561。
以下是如何在 PyTorch 中使用该模型进行无条件的图像生成:
1234561ImageGPT 模型是在 1234561 上进行预训练的,该数据集包含了 1400 万张图像和 21k 个类别。
首先将图像进行调整/缩放到相同的分辨率(32x32),并在 RGB 通道上进行归一化。接下来,进行颜色聚类。这意味着每个像素被转换为 512 个可能的聚类值之一。这样,最终得到的是一个由 32x32 = 1024 个像素值组成的序列,而不是 32x32x3 = 3072,对于基于 Transformer 的模型来说,3072 太大了,无法处理。
培训细节可以在该论文第 2 版的第 3.4 节中找到。
有关在几个图像分类基准测试上的评估结果,请参阅原始论文。