在 SD 1.5、SDXL 甚至 FLUX 模型中,CLIP 是负责解析提示词的核心组件,通常包含 12 到 32 层 Transformer 结构。不同模型使用的 CLIP 层数不同:SD 1.5 为 ...