CLIP 视觉模型

系统架构

CLIP 视觉系统由几个关键组件组成，它们协同工作以处理图像并生成嵌入。

CLIP 视觉模型处理流程

来源：comfy/clip_vision.py45-78 comfy/clip_model.py150-244

图像在输入视觉编码器之前会经过标准化的预处理

图像预处理流程

clip_preprocess 函数处理以下步骤：

该系统支持通过 JSON 配置文件加载多种视觉编码器架构

模型类型	配置文件	层数	隐藏层大小	图像尺寸
CLIP ViT-L	`clip_vision_config_vitl.json`	24	1024	224
CLIP ViT-L-336	`clip_vision_config_vitl_336.json`	24	1024	336
CLIP ViT-G	`clip_vision_config_g.json`	48	1664	224
CLIP ViT-H	`clip_vision_config_h.json`	32	1280	224
SigLIP-384	`clip_vision_siglip_384.json`	23	1152	384
SigLIP-512	`clip_vision_siglip_512.json`	23	1152	512
DINOv2	`dino2_giant.json`	-	-	224

load_clipvision_from_sd 函数通过检查 state_dict 结构来自动检测模型架构。

视觉模型实现了一个基于 Transformer 的架构，包含几个关键组件

CLIP 视觉架构组件

不同模型类型的关键架构差异

encode_image 方法通过完整流程处理图像。

图像编码状态机

Output 类提供对不同嵌入类型的字典式访问。

系统采用注册表模式支持不同的编码器架构

这使得轻松扩展新视觉编码器类型成为可能。配置文件中的 model_type 字段决定了要实例化的类。

支持的激活函数

CLIP 视觉模型与 ComfyUI 更广泛的模型管理系统集成

模型管理集成

ModelPatcher 系统允许对视觉模型进行动态修改，而不会对基础权重进行永久性更改，支持 LoRA 适配等技术。