SD-Scripts项目中图像尺寸收集性能优化方案解析

2025-06-04 10:17:02作者：温玫谨Lighthearted

项目地址：https://gitcode.com/gh_mirrors/sd/sd-scripts

在深度学习训练过程中，数据预处理阶段的效率直接影响整体训练流程。近期在kohya-ss的sd-scripts项目中，用户反馈了一个值得关注的问题：当处理4000张图像时，仅收集图像尺寸这一预处理步骤就耗时长达20分钟。本文将深入分析问题根源，并详细介绍项目团队提出的优化方案。

问题背景分析

图像尺寸收集是训练前的重要准备工作，传统实现方式是通过解析缓存文件（.npz）的文件名来获取尺寸信息。原始代码使用glob模块进行文件匹配，这种实现存在两个潜在性能瓶颈：

文件系统遍历开销：glob在底层需要执行完整的目录扫描
正则表达式匹配：每次文件名解析都需要重新编译正则模式

特别是在HDD存储环境下，频繁的小文件随机访问会显著降低IO性能。测试数据显示，相同操作在不同硬件环境下耗时差异巨大（从10秒到20分钟不等），这印证了IO性能对整体效率的关键影响。

优化方案设计

项目团队提出的fast_image_sizes分支实现了多重优化策略：

批量处理机制：一次性扫描目录获取所有缓存文件，建立内存映射关系，避免重复IO
并行计算：利用multiprocessing实现多核并行处理
正则表达式优化：预编译正则模式并简化匹配逻辑
缓存友好设计：通过字典结构实现O(1)复杂度的路径查找

优化后的核心逻辑流程为：

收集所有图像路径的基础目录
批量扫描目录建立缓存文件映射表
使用多进程并行处理图像批次
通过预编译正则快速提取尺寸信息

性能对比

在测试环境中，优化方案展现出显著效果：

原方案处理906张图像耗时约3秒（~254文件/秒）
优化后处理136张图像仅需0.08秒（~1606文件/秒）
整体吞吐量提升约6倍

特别值得注意的是，在HDD存储的大规模数据集（20，000图像）场景下，优化方案将处理时间从30分钟大幅降低到可接受范围。

技术启示

这一优化案例为深度学习数据预处理提供了有价值的实践参考：

避免在循环中执行文件系统操作
合理利用多核并行处理能力
重视正则表达式等基础组件的性能优化
针对不同存储介质（SSD/HDD）设计差异化方案

该优化方案已被合并至项目主分支，为sd-scripts用户提供了更高效的数据处理体验。这再次证明，在深度学习项目中，基础架构的优化往往能带来意想不到的显著收益。

sd-scripts

项目地址：https://gitcode.com/gh_mirrors/sd/sd-scripts

登录后查看全文

项目优选

收起

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

433

393

MindSpeed-MM

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Vue

1.67 K

987

SD-Scripts项目中图像尺寸收集性能优化方案解析

问题背景分析

优化方案设计

性能对比

技术启示

热门内容推荐

最新内容推荐

项目优选

SD-Scripts项目中图像尺寸收集性能优化方案解析

问题背景分析

优化方案设计

性能对比

技术启示

相关内容推荐

热门内容推荐

最新内容推荐

项目优选