4个实用步骤高效搞定LaMa图像修复数据集：从准备到扩展全程避坑指南

2026-04-16 08:12:48作者：霍妲思

图像修复模型训练的质量很大程度上取决于数据集的准备质量。本文将通过"准备→处理→验证→扩展"四个阶段，帮助你系统完成LaMa模型数据集的构建工作，解决数据准备过程中常见的路径混乱、格式不统一和验证缺失等问题，让训练数据准备效率提升80%，为模型性能提供坚实的数据基础。

【数据准备阶段】

1.1 环境与工具准备

在开始数据集处理前，需要确保工作环境已正确配置。首先克隆项目仓库并安装必要依赖：

git clone https://gitcode.com/GitHub_Trending/la/lama  # 克隆LaMa项目仓库
cd lama  # 进入项目目录
conda env create -f conda_env.yml  # 创建conda环境
conda activate lama  # 激活环境
pip install -r requirements.txt  # 安装额外依赖

⚠️ 风险提示：确保conda环境版本与系统匹配，Python 3.8+是推荐版本，低版本可能导致依赖安装失败。

1.2 数据集获取策略

LaMa模型推荐使用Places2和CelebA-HQ两个主流数据集，它们的特性对比如下：

特性	Places2数据集	CelebA-HQ数据集
内容类型	场景图像	人脸图像
数据规模	1000万+图像	3万张高质量人脸
分辨率	多种分辨率	256x256固定分辨率
适用场景	通用场景修复	人脸区域修复
数据多样性	高（1000+场景类别）	中（人脸表情、姿态变化）
处理复杂度	高（需处理大文件）	中（文件结构清晰）

【数据处理阶段】

2.1 Places2数据集标准化处理

Places2数据集处理的核心挑战是文件体积大、目录结构复杂。使用项目提供的自动化脚本可大幅简化流程：

bash fetch_data/places_standard_train_prepare.sh  # 处理训练集
bash fetch_data/places_standard_evaluation_prepare_data.sh  # 处理评估集

上述命令会自动完成以下工作：

创建标准目录结构places_standard_dataset
解压并整理训练集和评估集图像
生成多种类型的掩码文件（粗、中、细三种粒度）

⚠️ 风险提示：Places2数据集超过100GB，确保磁盘有足够空间，建议使用SSD存储以提高处理速度。

处理完成后，会生成包含以下子目录的结构：

places_standard_dataset/
├── train/                  # 训练集图像
└── evaluation/             # 评估集图像和掩码
    ├── hires/              # 高分辨率原始图像
    ├── random_thick_512/   # 512x512粗掩码
    ├── random_medium_512/  # 512x512中等掩码
    └── random_thin_512/    # 512x512细掩码

2.2 CelebA-HQ数据集专业化处理

CelebA-HQ数据集需要特殊的预处理以适应人脸修复任务：

bash fetch_data/celebahq_dataset_prepare.sh  # 处理CelebA-HQ数据集

该脚本完成的关键操作包括：

创建celeba-hq-dataset目录结构
重索引文件（将"00001.jpg"转换为"0.jpg"格式）
按8:1:1比例自动拆分训练集、验证集和测试集

处理后的目录结构：

celeba-hq-dataset/
├── train_256/              # 训练集（256x256）
├── val_source_256/         # 验证集（256x256）
└── visual_test_source_256/ # 可视化测试集（256x256）

阶段成果检验清单：

[ ] Places2数据集train目录下包含至少5000张图像
[ ] CelebA-HQ数据集三个子目录均非空
[ ] 所有掩码目录（random_*）均生成了对应的掩码文件
[ ] 配置文件在configs/training/location/目录下自动生成

【数据验证阶段】

3.1 目录结构验证

使用以下命令快速检查目录结构和文件数量：

# 检查Places2数据集基本结构
ls -l places_standard_dataset/ | grep -c "^d"  # 应输出2（train和evaluation）

# 检查CelebA-HQ图像数量
find celeba-hq-dataset/train_256 -name "*.jpg" | wc -l  # 应接近24000

3.2 配置文件验证

配置文件是连接数据集和模型的关键，需要确保路径正确：

# 检查Places2配置
grep "data_root_dir" configs/training/location/places_example.yaml

# 检查CelebA配置
grep "data_root_dir" configs/training/location/celeba_example.yaml

确保输出的路径与实际数据集存放位置一致。

3.3 常见问题解决方案

问题1：解压过程中断或失败

方案：使用tar -tf命令验证压缩包完整性，如tar -tf train_large_places365standard.tar > /dev/null

问题2：配置文件未自动生成

方案：手动创建配置文件，参考以下模板：

# @package _group_
data_root_dir: /path/to/your/dataset/
out_root_dir: ./experiments/
tb_dir: ./tb_logs/
pretrained_models: ./pretrained/

问题3：权限错误导致无法读取数据

方案：添加目录读取权限：chmod -R +r places_standard_dataset/

阶段成果检验清单：

[ ] 所有目录结构符合预期
[ ] 配置文件路径正确无误
[ ] 图像文件可正常打开
[ ] 掩码文件与图像文件数量匹配

【数据扩展阶段】

4.1 替代数据集介绍

除了官方推荐的数据集，以下两个数据集也可用于LaMa模型训练：

1. ImageNet数据集

特点：包含1400万张图像，1000个类别，覆盖广泛的自然场景
适用场景：需要增强模型对自然物体的修复能力时使用
处理建议：使用fetch_data目录下的eval_sampler.py工具进行采样

2. COCO数据集

特点：包含33万张图像，有详细的目标检测标注
适用场景：需要修复特定目标（如人、车、动物）时使用
处理建议：使用fetch_data/sampler.py工具按类别筛选图像

4.2 自定义数据集构建指南

构建自己的数据集时，需遵循以下规范：

custom_dataset/
├── train/              # 训练图像
├── val/                # 验证图像
└── masks/              # 掩码文件
    ├── train/          # 训练集掩码
    └── val/            # 验证集掩码