多模态节点 | comfyanonymous/ComfyUI | DeepWiki - 深度维基

在 Devin 中试用 DeepWiki 处理私有仓库

comfyanonymous/ComfyUI

在 DeepWiki 中试用私有仓库

菜单

相关源文件

ComfyUI 的多模态节点将系统的能力扩展到静态图像生成之外，允许用户处理音频和视频。本页面介绍了 ComfyUI 框架中处理音频处理、视频生成和动画功能的节点。

有关核心图像处理节点的信息，请参阅核心节点或图像和遮罩节点。

概述

ComfyUI 的多模态节点支持的流程可以

通过潜在空间操作生成和处理音频
从单个图像或帧系列创建视频
在不同模态之间进行转换（图像 → 视频，潜在 → 音频）
应用时间感知条件和引导
以各种音频和视频格式保存输出

来源：comfy_extras/nodes_audio.py1-254 comfy_extras/nodes_lt.py1-465 comfy_extras/nodes_video.py1-79 comfy_extras/nodes_images.py74-191

音频处理节点

ComfyUI 中的音频处理采用与图像生成类似的潜在空间方法，允许在压缩表示中操纵音频，然后再将其解码回波形。

音频潜在格式

音频潜在格式的结构与图像潜在格式不同

音频潜在格式使用形状 [batch_size, 64, length]
长度取决于音频时长（大约为 seconds * 44100 / 2048 / 2）
音频潜在格式被标记为 type: "audio" 以区别于图像潜在格式

来源：comfy_extras/nodes_audio.py17-34

音频节点类型

节点	目的	输入	输出
EmptyLatentAudio	创建空的音频潜在空间	seconds, batch_size	LATENT
VAEEncodeAudio	将音频编码为潜在空间	AUDIO, VAE	LATENT
VAEDecodeAudio	将潜在空间解码为音频	LATENT, VAE	AUDIO
ConditioningStableAudio	向条件添加音频计时参数	CONDITIONING, seconds_start, seconds_total	CONDITIONING
LoadAudio	从磁盘加载音频文件	audio (filepath)	AUDIO
SaveAudio	将音频保存到磁盘	AUDIO, filename_prefix	UI 显示
PreviewAudio	在 UI 中预览音频	AUDIO	UI 显示

来源：comfy_extras/nodes_audio.py17-34 comfy_extras/nodes_audio.py36-55 comfy_extras/nodes_audio.py57-90 comfy_extras/nodes_audio.py147-199 comfy_extras/nodes_audio.py201-212 comfy_extras/nodes_audio.py214-244

音频工作流示例

来源：comfy_extras/nodes_audio.py17-34 comfy_extras/nodes_audio.py36-55 comfy_extras/nodes_audio.py57-90 comfy_extras/nodes_audio.py147-199

视频处理节点

ComfyUI 的视频处理主要围绕 LTXV（Lightricks Video）架构，该架构支持从图像生成视频或通过引导帧合成。

视频潜在格式

视频潜在格式使用 5D 张量结构

形状：[batch_size, channels, frames, height, width]
对于 LTXV 模型，channels=128
模型使用空间和时间关系进行一致的视频生成

来源：comfy_extras/nodes_lt.py13-27 comfy_extras/nodes_lt.py30-64

LTXV 节点类型

节点	目的	关键输入	关键输出
EmptyLTXVLatentVideo	创建空的视频潜在空间	width, height, length, batch_size	LATENT
LTXVImgToVideo	将图像转换为视频潜在空间	IMAGE, VAE, dimensions	LATENT, CONDITIONING
LTXVAddGuide	添加参考帧引导	LATENT, IMAGE, VAE, frame_idx, strength	LATENT, CONDITIONING
LTXVCropGuides	使用后移除关键帧引导	LATENT	LATENT
LTXVConditioning	设置视频帧率	CONDITIONING, frame_rate	CONDITIONING
ModelSamplingLTXV	配置模型采样行为	MODEL, max_shift, base_shift	MODEL
LTXVScheduler	创建自定义 sigma 调度用于采样	steps, max_shift, base_shift	SIGMAS
LTXVPreprocess	对图像应用压缩预处理	IMAGE, img_compression	IMAGE

来源：comfy_extras/nodes_lt.py13-27 comfy_extras/nodes_lt.py30-64 comfy_extras/nodes_lt.py95-226 comfy_extras/nodes_lt.py229-261 comfy_extras/nodes_lt.py264-280 comfy_extras/nodes_lt.py283-322 comfy_extras/nodes_lt.py325-382 comfy_extras/nodes_lt.py425-452

视频保存节点

节点	目的	格式	关键输入
SaveWEBM	以 WebM 格式保存视频	VP9, AV1	images, codec, fps, crf
SaveAnimatedWEBP	将图像序列保存为 WebP	WebP	images, fps, lossless, quality
SaveAnimatedPNG	将图像序列保存为 APNG	APNG	images, fps, compress_level

来源：comfy_extras/nodes_video.py12-74 comfy_extras/nodes_images.py74-139 comfy_extras/nodes_images.py140-191

LTXV 架构

LTXV 模型架构采用基于 Transformer 的方法，并对时间维度进行专门处理

来源：comfy/ldm/lightricks/model.py367-507 comfy/ldm/lightricks/symmetric_patchifier.py8-117

对称 Patchifier

对称 Patchifier 是处理常规潜在空间与 Transformer 模型使用的 token 式表示之间转换的关键组件

来源：comfy/ldm/lightricks/symmetric_patchifier.py82-117

视频工作流示例

来源：comfy_extras/nodes_lt.py30-64 comfy_extras/nodes_lt.py95-226 comfy_extras/nodes_lt.py264-280 comfy_extras/nodes_video.py12-74

实现细节

因果卷积

视频生成依赖因果卷积来确保正确的时间依赖性。这可以防止“未来”帧的信息在生成过程中影响“过去”帧

来源：comfy/ldm/lightricks/vae/causal_conv3d.py9-66

音频数据处理

音频数据被处理为波形，并对音频域进行特定处理

来源：comfy_extras/nodes_audio.py57-90 comfy_extras/nodes_audio.py147-199

类型注册

多模态节点会注册到 ComfyUI 的类型系统中，以实现正确的节点连接

来源：comfy/comfy_types/node_typing.py17-52

集成到 ComfyUI

这些多模态节点通过标准的节点注册机制与更广泛的 ComfyUI 系统集成。每个节点类定义了

通过 INPUT_TYPES() 定义的输入类型和默认值
通过 RETURN_TYPES 定义的输出类型
通过 FUNCTION 定义的处理函数
通过 CATEGORY 定义的 UI 类别

节点类被注册到一个 NODE_CLASS_MAPPINGS 字典中，ComfyUI 使用该字典来填充节点菜单。

节点类型定义

来源：comfy_extras/nodes_audio.py17-34 comfy_extras/nodes_lt.py13-27

与 ComfyUI 的注册

来源：comfy_extras/nodes_audio.py246-254 comfy_extras/nodes_lt.py455-464 comfy_extras/nodes_video.py77-79

高级技巧

关键帧引导

LTXV 视频生成支持关键帧引导，可以提供特定帧作为参考点

来源：comfy_extras/nodes_lt.py95-226

帧率控制

视频生成需要正确的帧率配置以保证时间上的连贯性

来源：comfy_extras/nodes_lt.py264-280 comfy/ldm/lightricks/model.py439-440

结论

ComfyUI 中的多模态节点通过熟悉的节点界面提供了强大的音频和视频生成能力。这些节点利用因果卷积和基于 Transformer 的模型等专用架构来处理时间数据的独特需求。

对于希望尝试跨模态生成的用户，这些节点支持的工作流可以

根据文本提示生成音频
从单个图像创建视频
在时间维度上应用一致的风格
与图像生成工作流集成

音频和视频节点可以独立使用，也可以与其他 ComfyUI 节点结合，创建复杂的多模态生成管道。

刷新此 Wiki

最后索引时间2025年6月10日(c7b257)

此 Wiki 最近已刷新。请等待 7天s才能再次刷新。

本页内容