ComfyUI 的多模态节点将系统的能力扩展到静态图像生成之外,允许用户处理音频和视频。本页面介绍了 ComfyUI 框架中处理音频处理、视频生成和动画功能的节点。
有关核心图像处理节点的信息,请参阅核心节点或图像和遮罩节点。
ComfyUI 的多模态节点支持的流程可以
来源:comfy_extras/nodes_audio.py1-254 comfy_extras/nodes_lt.py1-465 comfy_extras/nodes_video.py1-79 comfy_extras/nodes_images.py74-191
ComfyUI 中的音频处理采用与图像生成类似的潜在空间方法,允许在压缩表示中操纵音频,然后再将其解码回波形。
音频潜在格式的结构与图像潜在格式不同
[batch_size, 64, length]seconds * 44100 / 2048 / 2)type: "audio" 以区别于图像潜在格式来源:comfy_extras/nodes_audio.py17-34
| 节点 | 目的 | 输入 | 输出 |
|---|---|---|---|
| EmptyLatentAudio | 创建空的音频潜在空间 | seconds, batch_size | LATENT |
| VAEEncodeAudio | 将音频编码为潜在空间 | AUDIO, VAE | LATENT |
| VAEDecodeAudio | 将潜在空间解码为音频 | LATENT, VAE | AUDIO |
| ConditioningStableAudio | 向条件添加音频计时参数 | CONDITIONING, seconds_start, seconds_total | CONDITIONING |
| LoadAudio | 从磁盘加载音频文件 | audio (filepath) | AUDIO |
| SaveAudio | 将音频保存到磁盘 | AUDIO, filename_prefix | UI 显示 |
| PreviewAudio | 在 UI 中预览音频 | AUDIO | UI 显示 |
来源:comfy_extras/nodes_audio.py17-34 comfy_extras/nodes_audio.py36-55 comfy_extras/nodes_audio.py57-90 comfy_extras/nodes_audio.py147-199 comfy_extras/nodes_audio.py201-212 comfy_extras/nodes_audio.py214-244
来源:comfy_extras/nodes_audio.py17-34 comfy_extras/nodes_audio.py36-55 comfy_extras/nodes_audio.py57-90 comfy_extras/nodes_audio.py147-199
ComfyUI 的视频处理主要围绕 LTXV(Lightricks Video)架构,该架构支持从图像生成视频或通过引导帧合成。
视频潜在格式使用 5D 张量结构
[batch_size, channels, frames, height, width]来源:comfy_extras/nodes_lt.py13-27 comfy_extras/nodes_lt.py30-64
| 节点 | 目的 | 关键输入 | 关键输出 |
|---|---|---|---|
| EmptyLTXVLatentVideo | 创建空的视频潜在空间 | width, height, length, batch_size | LATENT |
| LTXVImgToVideo | 将图像转换为视频潜在空间 | IMAGE, VAE, dimensions | LATENT, CONDITIONING |
| LTXVAddGuide | 添加参考帧引导 | LATENT, IMAGE, VAE, frame_idx, strength | LATENT, CONDITIONING |
| LTXVCropGuides | 使用后移除关键帧引导 | LATENT | LATENT |
| LTXVConditioning | 设置视频帧率 | CONDITIONING, frame_rate | CONDITIONING |
| ModelSamplingLTXV | 配置模型采样行为 | MODEL, max_shift, base_shift | MODEL |
| LTXVScheduler | 创建自定义 sigma 调度用于采样 | steps, max_shift, base_shift | SIGMAS |
| LTXVPreprocess | 对图像应用压缩预处理 | IMAGE, img_compression | IMAGE |
来源:comfy_extras/nodes_lt.py13-27 comfy_extras/nodes_lt.py30-64 comfy_extras/nodes_lt.py95-226 comfy_extras/nodes_lt.py229-261 comfy_extras/nodes_lt.py264-280 comfy_extras/nodes_lt.py283-322 comfy_extras/nodes_lt.py325-382 comfy_extras/nodes_lt.py425-452
| 节点 | 目的 | 格式 | 关键输入 |
|---|---|---|---|
| SaveWEBM | 以 WebM 格式保存视频 | VP9, AV1 | images, codec, fps, crf |
| SaveAnimatedWEBP | 将图像序列保存为 WebP | WebP | images, fps, lossless, quality |
| SaveAnimatedPNG | 将图像序列保存为 APNG | APNG | images, fps, compress_level |
来源:comfy_extras/nodes_video.py12-74 comfy_extras/nodes_images.py74-139 comfy_extras/nodes_images.py140-191
LTXV 模型架构采用基于 Transformer 的方法,并对时间维度进行专门处理
来源:comfy/ldm/lightricks/model.py367-507 comfy/ldm/lightricks/symmetric_patchifier.py8-117
对称 Patchifier 是处理常规潜在空间与 Transformer 模型使用的 token 式表示之间转换的关键组件
来源:comfy/ldm/lightricks/symmetric_patchifier.py82-117
来源:comfy_extras/nodes_lt.py30-64 comfy_extras/nodes_lt.py95-226 comfy_extras/nodes_lt.py264-280 comfy_extras/nodes_video.py12-74
视频生成依赖因果卷积来确保正确的时间依赖性。这可以防止“未来”帧的信息在生成过程中影响“过去”帧
来源:comfy/ldm/lightricks/vae/causal_conv3d.py9-66
音频数据被处理为波形,并对音频域进行特定处理
来源:comfy_extras/nodes_audio.py57-90 comfy_extras/nodes_audio.py147-199
多模态节点会注册到 ComfyUI 的类型系统中,以实现正确的节点连接
来源:comfy/comfy_types/node_typing.py17-52
这些多模态节点通过标准的节点注册机制与更广泛的 ComfyUI 系统集成。每个节点类定义了
INPUT_TYPES() 定义的输入类型和默认值RETURN_TYPES 定义的输出类型FUNCTION 定义的处理函数CATEGORY 定义的 UI 类别节点类被注册到一个 NODE_CLASS_MAPPINGS 字典中,ComfyUI 使用该字典来填充节点菜单。
来源:comfy_extras/nodes_audio.py17-34 comfy_extras/nodes_lt.py13-27
来源:comfy_extras/nodes_audio.py246-254 comfy_extras/nodes_lt.py455-464 comfy_extras/nodes_video.py77-79
LTXV 视频生成支持关键帧引导,可以提供特定帧作为参考点
来源:comfy_extras/nodes_lt.py95-226
视频生成需要正确的帧率配置以保证时间上的连贯性
来源:comfy_extras/nodes_lt.py264-280 comfy/ldm/lightricks/model.py439-440
ComfyUI 中的多模态节点通过熟悉的节点界面提供了强大的音频和视频生成能力。这些节点利用因果卷积和基于 Transformer 的模型等专用架构来处理时间数据的独特需求。
对于希望尝试跨模态生成的用户,这些节点支持的工作流可以
音频和视频节点可以独立使用,也可以与其他 ComfyUI 节点结合,创建复杂的多模态生成管道。