菜单

视频生成模型

相关源文件

本页面介绍了ComfyUI中实现的视频生成模型,重点关注LTXV(Lightricks Video)、Hunyuan Video以及其他具有时间处理功能的视频生成架构。这些模型扩展了标准扩散模型的能力,用于生成时间序列,从而能够根据文本提示、图像或两者的组合来创建视频。有关标准图像生成模型,请参阅高级模型,有关基于Transformer的架构,请参阅SD3和Flux模型

架构概述

ComfyUI中的视频生成模型扩展了扩散模型以处理额外的时间维度。它们通常使用专门的架构来在生成帧序列时保持时间一致性。

来源

通用原则

视频扩散模型共享几个关键的设计原则

  1. 感知时间处理:与图像模型不同,视频模型必须处理时间依赖性
  2. 因果设计:许多操作使用因果卷积或仅查看先前帧的注意力机制
  3. 帧条件化:支持基于参考帧(第一帧、关键帧)的条件化
  4. 专用采样:为视频生成优化的自定义采样策略

来源

Hunyuan视频模型

HunyuanVideo模型是一个基于Transformer的架构,它扩展了Flux层组件用于视频生成,支持文本到视频和图像到视频的工作流。

架构组件

HunyuanVideo类使用了与Flux类似的双流架构,但针对时间序列进行了调整。

来源

Token精炼系统

Hunyuan视频在主扩散过程之前使用复杂的Token精炼系统来处理文本嵌入

来源

调制和时间控制

该模型支持高级条件化,包括引导帧索引和参考潜在变量,以实现精确的时间控制

来源

LTXV视频生成模型

LTXV模型是Lightricks公司设计的一个时间感知Transformer架构,用于高质量视频生成。

核心架构

来源

Patchification和关键帧处理

LTXV模型使用对称Patchifier在潜在表示和Patch之间进行转换。其关键特性是能够处理用于指导生成过程的关键帧。

来源

因果视频自编码器

LTXV使用一种专门的因果视频自编码器,通过因果卷积来保持时间一致性。

来源

ComfyUI集成

这两个视频模型都通过专门的节点集成到ComfyUI中,使用户能够创建视频生成工作流。

LTXV节点

LTXV节点提供了一个完整的视频生成工作流

节点目的
EmptyLTXVLatentVideo创建具有指定尺寸的空潜在视频
LTXVImgToVideo为视频生成设置初始图像
LTXVAddGuide在特定位置添加引导帧
LTXVCropGuides从潜在变量中移除引导帧
LTXVConditioning设置视频生成的帧率
ModelSamplingLTXV配置模型采样参数
LTXVScheduler为扩散过程提供自定义调度
LTXVPreprocess为视频模型输入准备图像

来源

Hunyuan视频节点

Hunyuan视频节点提供用于视频生成的专门条件化

节点目的
EmptyHunyuanLatentVideo创建具有指定尺寸的空潜在视频
CLIPTextEncodeHunyuanDiT使用BERT和mT5XL编码器编码文本
TextEncodeHunyuanVideo_ImageToVideo使用CLIP视觉进行专门的图像到视频文本编码
HunyuanImageToVideo支持多种引导模式的图像到视频条件化

来源

基于Flux的视频扩展

Flux模型可以通过ControlNetFlux架构和专用节点扩展用于视频生成。

Flux视频架构

来源

Flux 视频条件化

Flux 模型通过专门的条件化节点支持视频

来源

视频生成模式

ComfyUI 中视频生成的常见模式

  1. 文本到视频:仅使用文本提示

    • 创建空的潜在空间 → 应用文本条件化 → 采样 → 解码
  2. 图像到视频:使用参考图像

    • 编码参考图像 → 添加到潜在空间 → 应用文本条件化 → 采样 → 解码
  3. 关键帧引导:使用多个参考帧

    • 创建空的潜在空间 → 添加关键帧 → 应用文本条件化 → 采样 → 解码
  4. 控制引导:使用控制图像或视频

    • 创建空的潜在空间 → 添加控制特征 → 应用文本条件化 → 采样 → 解码

来源

视频生成模型对比

功能LTXVHunyuan VideoFlux Video
架构SymmetricPatchifier 的 Transformer基于 Flux 的 TokenRefiner扩展 Flux transformer
文本编码器标准扩散编码器BERT + mT5XL 双编码CLIP-L + T5XXL
关键帧处理显式基于坐标的定位参考潜在空间和引导帧通过 ControlNet 的控制图像
VAECausalConv3dCausalVideoAutoencoder带 3D 补丁嵌入的标准 VAE标准 Flux VAE
时间处理latent_to_pixel_coords 映射具有时间感知的 3D 位置 ID旋转位置嵌入 (RoPE)
条件化类型多个任意位置的关键帧带引导模式的图像到视频带可配置引导比例的文本
采样带移位参数的 LTXVScheduler标准采样与调制流匹配与引导控制

来源