菜单

多模态节点

相关源文件

ComfyUI 的多模态节点将系统的能力扩展到静态图像生成之外,允许用户处理音频和视频。本页面介绍了 ComfyUI 框架中处理音频处理、视频生成和动画功能的节点。

有关核心图像处理节点的信息,请参阅核心节点图像和遮罩节点

概述

ComfyUI 的多模态节点支持的流程可以

  • 通过潜在空间操作生成和处理音频
  • 从单个图像或帧系列创建视频
  • 在不同模态之间进行转换(图像 → 视频,潜在 → 音频)
  • 应用时间感知条件和引导
  • 以各种音频和视频格式保存输出

来源:comfy_extras/nodes_audio.py1-254 comfy_extras/nodes_lt.py1-465 comfy_extras/nodes_video.py1-79 comfy_extras/nodes_images.py74-191

音频处理节点

ComfyUI 中的音频处理采用与图像生成类似的潜在空间方法,允许在压缩表示中操纵音频,然后再将其解码回波形。

音频潜在格式

音频潜在格式的结构与图像潜在格式不同

  • 音频潜在格式使用形状 [batch_size, 64, length]
  • 长度取决于音频时长(大约为 seconds * 44100 / 2048 / 2
  • 音频潜在格式被标记为 type: "audio" 以区别于图像潜在格式

来源:comfy_extras/nodes_audio.py17-34

音频节点类型

节点目的输入输出
EmptyLatentAudio创建空的音频潜在空间seconds, batch_sizeLATENT
VAEEncodeAudio将音频编码为潜在空间AUDIO, VAELATENT
VAEDecodeAudio将潜在空间解码为音频LATENT, VAEAUDIO
ConditioningStableAudio向条件添加音频计时参数CONDITIONING, seconds_start, seconds_totalCONDITIONING
LoadAudio从磁盘加载音频文件audio (filepath)AUDIO
SaveAudio将音频保存到磁盘AUDIO, filename_prefixUI 显示
PreviewAudio在 UI 中预览音频AUDIOUI 显示

来源:comfy_extras/nodes_audio.py17-34 comfy_extras/nodes_audio.py36-55 comfy_extras/nodes_audio.py57-90 comfy_extras/nodes_audio.py147-199 comfy_extras/nodes_audio.py201-212 comfy_extras/nodes_audio.py214-244

音频工作流示例

来源:comfy_extras/nodes_audio.py17-34 comfy_extras/nodes_audio.py36-55 comfy_extras/nodes_audio.py57-90 comfy_extras/nodes_audio.py147-199

视频处理节点

ComfyUI 的视频处理主要围绕 LTXV(Lightricks Video)架构,该架构支持从图像生成视频或通过引导帧合成。

视频潜在格式

视频潜在格式使用 5D 张量结构

  • 形状:[batch_size, channels, frames, height, width]
  • 对于 LTXV 模型,channels=128
  • 模型使用空间和时间关系进行一致的视频生成

来源:comfy_extras/nodes_lt.py13-27 comfy_extras/nodes_lt.py30-64

LTXV 节点类型

节点目的关键输入关键输出
EmptyLTXVLatentVideo创建空的视频潜在空间width, height, length, batch_sizeLATENT
LTXVImgToVideo将图像转换为视频潜在空间IMAGE, VAE, dimensionsLATENT, CONDITIONING
LTXVAddGuide添加参考帧引导LATENT, IMAGE, VAE, frame_idx, strengthLATENT, CONDITIONING
LTXVCropGuides使用后移除关键帧引导LATENTLATENT
LTXVConditioning设置视频帧率CONDITIONING, frame_rateCONDITIONING
ModelSamplingLTXV配置模型采样行为MODEL, max_shift, base_shiftMODEL
LTXVScheduler创建自定义 sigma 调度用于采样steps, max_shift, base_shiftSIGMAS
LTXVPreprocess对图像应用压缩预处理IMAGE, img_compressionIMAGE

来源:comfy_extras/nodes_lt.py13-27 comfy_extras/nodes_lt.py30-64 comfy_extras/nodes_lt.py95-226 comfy_extras/nodes_lt.py229-261 comfy_extras/nodes_lt.py264-280 comfy_extras/nodes_lt.py283-322 comfy_extras/nodes_lt.py325-382 comfy_extras/nodes_lt.py425-452

视频保存节点

节点目的格式关键输入
SaveWEBM以 WebM 格式保存视频VP9, AV1images, codec, fps, crf
SaveAnimatedWEBP将图像序列保存为 WebPWebPimages, fps, lossless, quality
SaveAnimatedPNG将图像序列保存为 APNGAPNGimages, fps, compress_level

来源:comfy_extras/nodes_video.py12-74 comfy_extras/nodes_images.py74-139 comfy_extras/nodes_images.py140-191

LTXV 架构

LTXV 模型架构采用基于 Transformer 的方法,并对时间维度进行专门处理

来源:comfy/ldm/lightricks/model.py367-507 comfy/ldm/lightricks/symmetric_patchifier.py8-117

对称 Patchifier

对称 Patchifier 是处理常规潜在空间与 Transformer 模型使用的 token 式表示之间转换的关键组件

来源:comfy/ldm/lightricks/symmetric_patchifier.py82-117

视频工作流示例

来源:comfy_extras/nodes_lt.py30-64 comfy_extras/nodes_lt.py95-226 comfy_extras/nodes_lt.py264-280 comfy_extras/nodes_video.py12-74

实现细节

因果卷积

视频生成依赖因果卷积来确保正确的时间依赖性。这可以防止“未来”帧的信息在生成过程中影响“过去”帧

来源:comfy/ldm/lightricks/vae/causal_conv3d.py9-66

音频数据处理

音频数据被处理为波形,并对音频域进行特定处理

来源:comfy_extras/nodes_audio.py57-90 comfy_extras/nodes_audio.py147-199

类型注册

多模态节点会注册到 ComfyUI 的类型系统中,以实现正确的节点连接

来源:comfy/comfy_types/node_typing.py17-52

集成到 ComfyUI

这些多模态节点通过标准的节点注册机制与更广泛的 ComfyUI 系统集成。每个节点类定义了

  1. 通过 INPUT_TYPES() 定义的输入类型和默认值
  2. 通过 RETURN_TYPES 定义的输出类型
  3. 通过 FUNCTION 定义的处理函数
  4. 通过 CATEGORY 定义的 UI 类别

节点类被注册到一个 NODE_CLASS_MAPPINGS 字典中,ComfyUI 使用该字典来填充节点菜单。

节点类型定义

来源:comfy_extras/nodes_audio.py17-34 comfy_extras/nodes_lt.py13-27

与 ComfyUI 的注册

来源:comfy_extras/nodes_audio.py246-254 comfy_extras/nodes_lt.py455-464 comfy_extras/nodes_video.py77-79

高级技巧

关键帧引导

LTXV 视频生成支持关键帧引导,可以提供特定帧作为参考点

来源:comfy_extras/nodes_lt.py95-226

帧率控制

视频生成需要正确的帧率配置以保证时间上的连贯性

来源:comfy_extras/nodes_lt.py264-280 comfy/ldm/lightricks/model.py439-440

结论

ComfyUI 中的多模态节点通过熟悉的节点界面提供了强大的音频和视频生成能力。这些节点利用因果卷积和基于 Transformer 的模型等专用架构来处理时间数据的独特需求。

对于希望尝试跨模态生成的用户,这些节点支持的工作流可以

  • 根据文本提示生成音频
  • 从单个图像创建视频
  • 在时间维度上应用一致的风格
  • 与图像生成工作流集成

音频和视频节点可以独立使用,也可以与其他 ComfyUI 节点结合,创建复杂的多模态生成管道。