模型:
openai/shap-e
Shap-E引入了一种扩散过程,可以从文本提示生成三维图像。它是由OpenAI的Heewoo Jun和Alex Nichol于 Shap-E: Generating Conditional 3D Implicit Functions 年提出的。
Shap-E的原始存储库可以在此处找到: https://github.com/openai/shap-e 。
Shap-E的作者没有编写这个模型卡。他们提供了一个单独的模型卡: here 。
Shap-E论文的摘要:
我们提出了Shap-E,这是一种用于生成3D资产的条件生成模型。与最近关于3D生成模型的工作不同,这些模型产生单个输出表示,Shap-E直接生成可以呈现为纹理网格和神经波动场的隐式函数的参数。我们将Shap-E分为两个阶段进行训练:首先,我们训练一个编码器,该编码器将3D资产确定性地映射到隐式函数的参数;其次,我们在编码器的输出上训练一个条件扩散模型。当在大型成对的3D和文本数据集上进行训练时,我们得到的模型能够在几秒钟内生成复杂多样的3D资产。与Point-E(一种点云上的显式生成模型)相比,Shap-E收敛更快,并且在对比或更好的样本质量上达到可比较的结果,尽管Shap-E模型的输出空间具有更高的维度和多重表示。我们在 this https URL 发布了模型权重、推理代码和样本。
作者发布了以下检查点:
首先确保您已安装所有依赖项:
pip install transformers accelerate -q pip install git+https://github.com/huggingface/diffusers@@shap-ee
安装完依赖项后,使用以下代码:
import torch from diffusers import ShapEPipeline from diffusers.utils import export_to_gif ckpt_id = "openai/shap-e" pipe = ShapEPipeline.from_pretrained(repo).to("cuda") guidance_scale = 15.0 prompt = "a shark" images = pipe( prompt, guidance_scale=guidance_scale, num_inference_steps=64, size=256, ).images gif_path = export_to_gif(images, "shark_3d.gif")
A bird | A shark | A bowl of vegetables |
请参阅 original paper 。
请参阅 original model card 。
@misc{jun2023shape, title={Shap-E: Generating Conditional 3D Implicit Functions}, author={Heewoo Jun and Alex Nichol}, year={2023}, eprint={2305.02463}, archivePrefix={arXiv}, primaryClass={cs.CV} }