模型:

cerspense/zeroscope_v2_576w

英文

zeroscope_v2 576w

一个无水印的Modelscope视频模型,经过优化,可以产生高质量的16:9组合和平滑的视频输出。该模型是使用9,923个剪辑和29,769个标记帧,在24帧、576x320分辨率下由 original weights 进行训练的。zeroscope_v2_567w专门用于在 zeroscope_v2_XL 中使用vid2vid进行放大,在 1111 text2video 扩展中,使用 kabachuha 。利用此模型作为初步步骤,在高分辨率的渲染之前,可以在576x320中进行更快的探索,从而实现整体上的更优组合。请使用zeroscope_v2_XL将一些已经使用zeroscope_v2_XL放大到1024x576的 example outputs 。 (由 dotsimulate 提供)

zeroscope_v2_576w在渲染30帧的576x320时使用7.9gb的vram

使用1111文本转视频扩展名

  • 下载zs2_576w文件夹中的文件。
  • 将相应文件替换为'stable-diffusion-webui\models\ModelScope\t2v'目录中的文件。
  • 放大建议

    对于放大,建议使用1111扩展中的 zeroscope_v2_XL 通过vid2vid。在1024x576分辨率下,使用0.66到0.85之间的降噪强度效果最佳。记得使用生成原始剪辑时使用的相同提示。

    在?扩散器中的使用

    让我们首先安装所需的库:

    $ pip install diffusers transformers accelerate torch
    

    现在,生成一个视频:

    import torch
    from diffusers import DiffusionPipeline, DPMSolverMultistepScheduler
    from diffusers.utils import export_to_video
    
    pipe = DiffusionPipeline.from_pretrained("cerspense/zeroscope_v2_576w", torch_dtype=torch.float16)
    pipe.scheduler = DPMSolverMultistepScheduler.from_config(pipe.scheduler.config)
    pipe.enable_model_cpu_offload()
    
    prompt = "Darth Vader is surfing on waves"
    video_frames = pipe(prompt, num_inference_steps=40, height=320, width=576, num_frames=24).frames
    video_path = export_to_video(video_frames)
    

    这里是一些结果:

    达斯维达正在冲浪。

    已知问题

    较低的分辨率或较少的帧可能会导致次优的输出。

    感谢 camenduru kabachuha ExponentialML dotsimulate VANYA polyware tin2tin