Stable Diffusion lora训练(一)_训练lora模型需要多少图片
一、不同维度的LoRA训练步数建议
-
2D风格训练
- 数据规模:建议20-50张高质量图片(分辨率≥1024×1024),覆盖多角度、多表情的平面风格。
- 步数范围:总步数控制在1000-2000步,公式为
总步数 = Repeat × Image × Epoch / Batch_size
。 - 示例:Image=30张,Repeat=10,Epoch=5,Batch_size=2 → 750步(偏低,需增加Epoch至10)。
-
2.5D风格训练
- 数据规模:30-60张图片,需兼具平面与立体细节(如半厚涂、轻3D渲染)。
- 步数范围:推荐1500-3000步,通过提高Epoch(8-12轮)增强细节捕捉能力。
-
3D风格训练
- 数据规模:50-100张高精度建模图,需包含光影、材质、多视角特征。
- 步数范围:建议15000步左右,搭配Dadaptation优化器动态调整学习率。
二、不同底模的步数适配策略
三、LoRA训练小技巧
数据预处理优化
- 使用智能裁剪工具(如ComfyUI)聚焦主体,避免“截肢”或背景干扰。
- 结合BLIP或WD 1.4 Tagger生成标签后,手动补充细节描述(如材质、光源)。
参数调优技巧
- 学习率平衡:Unet学习率设为0.0001-0.001,Text Encoder学习率降低至其1/5-1/10。
- 正则化图像:添加5-10张非目标风格图片(如素描),提升模型泛化性。
硬件适配策略
- 显存≤6G时,Batch_size=1,通过提高Repeat或Epoch补偿训练强度。
- 显存≥12G时,Batch_size=4-6,结合梯度累积加速收敛。
模型性能评估
- Loss率监控:保持Loss在0.3-0.5区间,过低(<0.1)可能过拟合。
- 多轮次保存:每轮训练保存模型,测试时选择泛化性与细节平衡的版本。
四、典型训练方案示例
总结
- 训练步数需根据公式动态调整,优先保证数据质量与标签精准度。
- 2D/2.5D场景推荐1000-3000步,3D场景建议提升至1500步以上。
- 底模选择上,SD1.5和Illustrious适合通用需求,Pony/F1需针对性优化参数。
- 结合正则化图像与学习率平衡策略,可显著提升模型泛化性。