本页面介绍了ComfyUI中实现的视频生成模型,重点关注LTXV(Lightricks Video)、Hunyuan Video以及其他具有时间处理功能的视频生成架构。这些模型扩展了标准扩散模型的能力,用于生成时间序列,从而能够根据文本提示、图像或两者的组合来创建视频。有关标准图像生成模型,请参阅高级模型,有关基于Transformer的架构,请参阅SD3和Flux模型。
ComfyUI中的视频生成模型扩展了扩散模型以处理额外的时间维度。它们通常使用专门的架构来在生成帧序列时保持时间一致性。
来源
视频扩散模型共享几个关键的设计原则
来源
HunyuanVideo模型是一个基于Transformer的架构,它扩展了Flux层组件用于视频生成,支持文本到视频和图像到视频的工作流。
HunyuanVideo类使用了与Flux类似的双流架构,但针对时间序列进行了调整。
来源
Hunyuan视频在主扩散过程之前使用复杂的Token精炼系统来处理文本嵌入
来源
该模型支持高级条件化,包括引导帧索引和参考潜在变量,以实现精确的时间控制
来源
LTXV模型是Lightricks公司设计的一个时间感知Transformer架构,用于高质量视频生成。
来源
LTXV模型使用对称Patchifier在潜在表示和Patch之间进行转换。其关键特性是能够处理用于指导生成过程的关键帧。
来源
LTXV使用一种专门的因果视频自编码器,通过因果卷积来保持时间一致性。
来源
这两个视频模型都通过专门的节点集成到ComfyUI中,使用户能够创建视频生成工作流。
LTXV节点提供了一个完整的视频生成工作流
| 节点 | 目的 |
|---|---|
| EmptyLTXVLatentVideo | 创建具有指定尺寸的空潜在视频 |
| LTXVImgToVideo | 为视频生成设置初始图像 |
| LTXVAddGuide | 在特定位置添加引导帧 |
| LTXVCropGuides | 从潜在变量中移除引导帧 |
| LTXVConditioning | 设置视频生成的帧率 |
| ModelSamplingLTXV | 配置模型采样参数 |
| LTXVScheduler | 为扩散过程提供自定义调度 |
| LTXVPreprocess | 为视频模型输入准备图像 |
来源
Hunyuan视频节点提供用于视频生成的专门条件化
| 节点 | 目的 |
|---|---|
EmptyHunyuanLatentVideo | 创建具有指定尺寸的空潜在视频 |
CLIPTextEncodeHunyuanDiT | 使用BERT和mT5XL编码器编码文本 |
TextEncodeHunyuanVideo_ImageToVideo | 使用CLIP视觉进行专门的图像到视频文本编码 |
HunyuanImageToVideo | 支持多种引导模式的图像到视频条件化 |
来源
Flux模型可以通过ControlNetFlux架构和专用节点扩展用于视频生成。
来源
Flux 模型通过专门的条件化节点支持视频
来源
ComfyUI 中视频生成的常见模式
文本到视频:仅使用文本提示
图像到视频:使用参考图像
关键帧引导:使用多个参考帧
控制引导:使用控制图像或视频
来源
| 功能 | LTXV | Hunyuan Video | Flux Video |
|---|---|---|---|
| 架构 | 带 SymmetricPatchifier 的 Transformer | 基于 Flux 的 TokenRefiner | 扩展 Flux transformer |
| 文本编码器 | 标准扩散编码器 | BERT + mT5XL 双编码 | CLIP-L + T5XXL |
| 关键帧处理 | 显式基于坐标的定位 | 参考潜在空间和引导帧 | 通过 ControlNet 的控制图像 |
| VAE | 带 CausalConv3d 的 CausalVideoAutoencoder | 带 3D 补丁嵌入的标准 VAE | 标准 Flux VAE |
| 时间处理 | latent_to_pixel_coords 映射 | 具有时间感知的 3D 位置 ID | 旋转位置嵌入 (RoPE) |
| 条件化类型 | 多个任意位置的关键帧 | 带引导模式的图像到视频 | 带可配置引导比例的文本 |
| 采样 | 带移位参数的 LTXVScheduler | 标准采样与调制 | 流匹配与引导控制 |
来源