模型:

openai/shap-e

英文

Shap-E

Shap-E引入了一种扩散过程,可以从文本提示生成三维图像。它是由OpenAI的Heewoo Jun和Alex Nichol于 Shap-E: Generating Conditional 3D Implicit Functions 年提出的。

Shap-E的原始存储库可以在此处找到: https://github.com/openai/shap-e

Shap-E的作者没有编写这个模型卡。他们提供了一个单独的模型卡: here

简介

Shap-E论文的摘要:

我们提出了Shap-E,这是一种用于生成3D资产的条件生成模型。与最近关于3D生成模型的工作不同,这些模型产生单个输出表示,Shap-E直接生成可以呈现为纹理网格和神经波动场的隐式函数的参数。我们将Shap-E分为两个阶段进行训练:首先,我们训练一个编码器,该编码器将3D资产确定性地映射到隐式函数的参数;其次,我们在编码器的输出上训练一个条件扩散模型。当在大型成对的3D和文本数据集上进行训练时,我们得到的模型能够在几秒钟内生成复杂多样的3D资产。与Point-E(一种点云上的显式生成模型)相比,Shap-E收敛更快,并且在对比或更好的样本质量上达到可比较的结果,尽管Shap-E模型的输出空间具有更高的维度和多重表示。我们在 this https URL 发布了模型权重、推理代码和样本。

已发布的检查点

作者发布了以下检查点:

在?扩散器中的用法示例

首先确保您已安装所有依赖项:

pip install transformers accelerate -q
pip install git+https://github.com/huggingface/diffusers@@shap-ee

安装完依赖项后,使用以下代码:

import torch
from diffusers import ShapEPipeline
from diffusers.utils import export_to_gif


ckpt_id = "openai/shap-e"
pipe = ShapEPipeline.from_pretrained(repo).to("cuda")


guidance_scale = 15.0
prompt = "a shark"
images = pipe(
    prompt,
    guidance_scale=guidance_scale,
    num_inference_steps=64,
    size=256,
).images

gif_path = export_to_gif(images, "shark_3d.gif")

结果

12311321 12312321 12313321
A bird A shark A bowl of vegetables

训练细节

请参阅 original paper

已知限制和潜在偏差

请参阅 original model card

引用

@misc{jun2023shape,
      title={Shap-E: Generating Conditional 3D Implicit Functions}, 
      author={Heewoo Jun and Alex Nichol},
      year={2023},
      eprint={2305.02463},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}