模型:
cerspense/zeroscope_v2_576w
一个无水印的Modelscope视频模型,经过优化,可以产生高质量的16:9组合和平滑的视频输出。该模型是使用9,923个剪辑和29,769个标记帧,在24帧、576x320分辨率下由 original weights 进行训练的。zeroscope_v2_567w专门用于在 zeroscope_v2_XL 中使用vid2vid进行放大,在 1111 text2video 扩展中,使用 kabachuha 。利用此模型作为初步步骤,在高分辨率的渲染之前,可以在576x320中进行更快的探索,从而实现整体上的更优组合。请使用zeroscope_v2_XL将一些已经使用zeroscope_v2_XL放大到1024x576的 example outputs 。 (由 dotsimulate 提供)
zeroscope_v2_576w在渲染30帧的576x320时使用7.9gb的vram
对于放大,建议使用1111扩展中的 zeroscope_v2_XL 通过vid2vid。在1024x576分辨率下,使用0.66到0.85之间的降噪强度效果最佳。记得使用生成原始剪辑时使用的相同提示。
让我们首先安装所需的库:
$ pip install diffusers transformers accelerate torch
现在,生成一个视频:
import torch from diffusers import DiffusionPipeline, DPMSolverMultistepScheduler from diffusers.utils import export_to_video pipe = DiffusionPipeline.from_pretrained("cerspense/zeroscope_v2_576w", torch_dtype=torch.float16) pipe.scheduler = DPMSolverMultistepScheduler.from_config(pipe.scheduler.config) pipe.enable_model_cpu_offload() prompt = "Darth Vader is surfing on waves" video_frames = pipe(prompt, num_inference_steps=40, height=320, width=576, num_frames=24).frames video_path = export_to_video(video_frames)
这里是一些结果:
达斯维达正在冲浪。较低的分辨率或较少的帧可能会导致次优的输出。
感谢 camenduru , kabachuha , ExponentialML , dotsimulate , VANYA , polyware , tin2tin