Shap-E

Shap-E引入了一种扩散过程，可以根据文本提示生成3D图像。它由OpenAI的Heewoo Jun和Alex Nichol于 Shap-E: Generating Conditional 3D Implicit Functions 年提出。

Shap-E的原始存储库可以在这里找到： https://github.com/openai/shap-e 。

Shap-E的作者没有编写这个模型卡。他们提供了一个单独的模型卡： here 。

介绍

Shap-E论文的摘要：

我们提供了Shap-E，一种用于生成3D资产的条件生成模型。与最近的3D生成模型相比，后者产生单一的输出表示，Shap-E直接生成可以作为纹理网格和神经辐射场进行渲染的隐式函数的参数。我们通过两个阶段来训练Shap-E：首先，我们训练一个将3D资产确定性地映射到隐式函数参数的编码器；其次，我们在编码器的输出上训练一个条件扩散模型。当在大规模的成对3D和文本数据集上进行训练时，我们得到的模型能够在几秒钟内生成复杂且多样化的3D资产。与Point-E相比，后者是一个用于点云的显式生成模型，Shap-E在建模更高维度的多重表示输出空间的同时收敛更快，并达到可比较或更好的样本质量。我们在 this https URL 上发布模型权重、推理代码和样本。

发布的检查点

作者发布了以下检查点：

openai/shap-e ：根据文本输入提示生成3D图像
openai/shap-e-img2img ：从合成的2D图像中取样3D图像

在🧨扩散器中的使用示例

首先确保您已安装所有依赖项：

pip install transformers accelerate -q
pip install git+https://github.com/huggingface/diffusers@@shap-ee

一旦安装了依赖项，请使用以下代码：

import torch
from diffusers import ShapEImg2ImgPipeline
from diffusers.utils import export_to_gif, load_image


ckpt_id = "openai/shap-e-img2img"
pipe = ShapEImg2ImgPipeline.from_pretrained(repo).to("cuda")

img_url = "https://hf.co/datasets/diffusers/docs-images/resolve/main/shap-e/corgi.png"
image = load_image(img_url)


generator = torch.Generator(device="cuda").manual_seed(0)
batch_size = 4
guidance_scale = 3.0

images = pipe(
    image, 
    num_images_per_prompt=batch_size, 
    generator=generator, 
    guidance_scale=guidance_scale,
    num_inference_steps=64, 
    size=256, 
    output_type="pil"
).images

gif_path = export_to_gif(images, "corgi_sampled_3d.gif")

结果

12311321 12312321 12313321

Reference corgi image in 2D

Sampled image in 3D (one)

Sampled image in 3D (two)

训练详细信息

请参阅 original paper 。

已知限制和潜在偏见

请参阅 original model card 。

引用

@misc{jun2023shape,
      title={Shap-E: Generating Conditional 3D Implicit Functions}, 
      author={Heewoo Jun and Alex Nichol},
      year={2023},
      eprint={2305.02463},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}

作者:

OpenAI

数据集大小:

5.57 GB