视频生成模型

架构概述

ComfyUI中的视频生成模型扩展了扩散模型以处理额外的时间维度。它们通常使用专门的架构来在生成帧序列时保持时间一致性。

来源

通用原则

视频扩散模型共享几个关键的设计原则

感知时间处理：与图像模型不同，视频模型必须处理时间依赖性
因果设计：许多操作使用因果卷积或仅查看先前帧的注意力机制
帧条件化：支持基于参考帧（第一帧、关键帧）的条件化
专用采样：为视频生成优化的自定义采样策略

来源

Hunyuan视频模型

HunyuanVideo模型是一个基于Transformer的架构，它扩展了Flux层组件用于视频生成，支持文本到视频和图像到视频的工作流。

架构组件

HunyuanVideo类使用了与Flux类似的双流架构，但针对时间序列进行了调整。

来源

Hunyuan视频在主扩散过程之前使用复杂的Token精炼系统来处理文本嵌入

来源

调制和时间控制

该模型支持高级条件化，包括引导帧索引和参考潜在变量，以实现精确的时间控制

来源

LTXV视频生成模型

LTXV模型是Lightricks公司设计的一个时间感知Transformer架构，用于高质量视频生成。

核心架构

来源

Patchification和关键帧处理

LTXV模型使用对称Patchifier在潜在表示和Patch之间进行转换。其关键特性是能够处理用于指导生成过程的关键帧。

来源

因果视频自编码器

LTXV使用一种专门的因果视频自编码器，通过因果卷积来保持时间一致性。

来源

ComfyUI集成

这两个视频模型都通过专门的节点集成到ComfyUI中，使用户能够创建视频生成工作流。

LTXV节点

LTXV节点提供了一个完整的视频生成工作流

节点	目的
EmptyLTXVLatentVideo	创建具有指定尺寸的空潜在视频
LTXVImgToVideo	为视频生成设置初始图像
LTXVAddGuide	在特定位置添加引导帧
LTXVCropGuides	从潜在变量中移除引导帧
LTXVConditioning	设置视频生成的帧率
ModelSamplingLTXV	配置模型采样参数
LTXVScheduler	为扩散过程提供自定义调度
LTXVPreprocess	为视频模型输入准备图像

来源

Hunyuan视频节点

Hunyuan视频节点提供用于视频生成的专门条件化

节点	目的
`EmptyHunyuanLatentVideo`	创建具有指定尺寸的空潜在视频
`CLIPTextEncodeHunyuanDiT`	使用BERT和mT5XL编码器编码文本
`TextEncodeHunyuanVideo_ImageToVideo`	使用CLIP视觉进行专门的图像到视频文本编码
`HunyuanImageToVideo`	支持多种引导模式的图像到视频条件化

来源

基于Flux的视频扩展

Flux模型可以通过ControlNetFlux架构和专用节点扩展用于视频生成。

Flux视频架构

来源

Flux 视频条件化

Flux 模型通过专门的条件化节点支持视频

来源

视频生成模式

ComfyUI 中视频生成的常见模式

文本到视频：仅使用文本提示
- 创建空的潜在空间 → 应用文本条件化 → 采样 → 解码
图像到视频：使用参考图像
- 编码参考图像 → 添加到潜在空间 → 应用文本条件化 → 采样 → 解码
关键帧引导：使用多个参考帧
- 创建空的潜在空间 → 添加关键帧 → 应用文本条件化 → 采样 → 解码
控制引导：使用控制图像或视频
- 创建空的潜在空间 → 添加控制特征 → 应用文本条件化 → 采样 → 解码

来源