zeroscope_v2 576w

一个无水印的Modelscope视频模型，经过优化，可以产生高质量的16:9组合和平滑的视频输出。该模型是使用9,923个剪辑和29,769个标记帧，在24帧、576x320分辨率下由 original weights 进行训练的。zeroscope_v2_567w专门用于在 zeroscope_v2_XL 中使用vid2vid进行放大，在 1111 text2video 扩展中，使用 kabachuha 。利用此模型作为初步步骤，在高分辨率的渲染之前，可以在576x320中进行更快的探索，从而实现整体上的更优组合。请使用zeroscope_v2_XL将一些已经使用zeroscope_v2_XL放大到1024x576的 example outputs 。（由 dotsimulate 提供）

zeroscope_v2_576w在渲染30帧的576x320时使用7.9gb的vram

使用1111文本转视频扩展名

下载zs2_576w文件夹中的文件。

将相应文件替换为'stable-diffusion-webui\models\ModelScope\t2v'目录中的文件。

放大建议

对于放大，建议使用1111扩展中的 zeroscope_v2_XL 通过vid2vid。在1024x576分辨率下，使用0.66到0.85之间的降噪强度效果最佳。记得使用生成原始剪辑时使用的相同提示。

在🧨扩散器中的使用

让我们首先安装所需的库：

$ pip install diffusers transformers accelerate torch

现在，生成一个视频：

import torch
from diffusers import DiffusionPipeline, DPMSolverMultistepScheduler
from diffusers.utils import export_to_video

pipe = DiffusionPipeline.from_pretrained("cerspense/zeroscope_v2_576w", torch_dtype=torch.float16)
pipe.scheduler = DPMSolverMultistepScheduler.from_config(pipe.scheduler.config)
pipe.enable_model_cpu_offload()

prompt = "Darth Vader is surfing on waves"
video_frames = pipe(prompt, num_inference_steps=40, height=320, width=576, num_frames=24).frames
video_path = export_to_video(video_frames)

这里是一些结果：

达斯维达正在冲浪。

已知问题

较低的分辨率或较少的帧可能会导致次优的输出。

感谢 camenduru ， kabachuha ， ExponentialML ， dotsimulate ， VANYA ， polyware ， tin2tin

作者:

Spencer Sterling

数据集大小:

7.89 GB