Surgical-Image-Restoration项目数据集准备指南

2025-06-19 19:18:40作者：姚月梅Lane

前言

在医学图像处理领域，高质量的数据集对于训练优秀的图像恢复模型至关重要。本文将详细介绍Surgical-Image-Restoration项目所需数据集的准备工作，包括数据存储格式选择、常用数据集获取与处理方式等，帮助研究人员快速搭建实验环境。

数据存储格式选择

项目支持三种数据存储格式，各有优缺点：

1. 直接硬盘存储

特点：

原始图像/视频帧直接存储在硬盘上
实现简单，无需额外处理
适合小规模数据集或测试阶段

配置示例：

type: PairedImageDataset
dataroot_gt: datasets/DIV2K/DIV2K_train_HR_sub
dataroot_lq: datasets/DIV2K/DIV2K_train_LR_bicubic/X4_sub
io_backend:
  type: disk

2. LMDB格式

优势：

显著加速训练时的IO和解压缩速度
特别适合大规模数据集
减少小文件数量，提高存储效率

实现原理： LMDB(Lightning Memory-Mapped Database)是一种基于内存映射的键值存储数据库，通过将整个数据集映射到内存地址空间，避免了频繁的文件系统操作。

性能优化建议：

确保机器有足够内存缓存整个LMDB数据集
首次使用时预缓存数据：cat data.mdb > /dev/null
监控系统缓存使用情况：free -h

LMDB文件结构：

数据集名称.lmdb/
├── data.mdb      # 实际数据存储
├── lock.mdb      # 锁文件
├── meta_info.txt # 元信息文件

3. Memcached

适用场景：

集群环境
需要分布式缓存的情况

配置要求：

需预先安装配置memcached服务
需要指定服务器列表和客户端配置

医学图像超分辨率数据集准备

DIV2K数据集处理

处理流程：

数据获取：
- 从官方网站下载原始DIV2K数据集
- 包含800张训练图像和100张验证图像，分辨率均为2K
子图像裁剪：
```
python scripts/data_preparation/extract_subimages.py
```
- 将大图裁剪为480x480的子图
- 训练时再从子图中随机裁剪更小的patch
LMDB转换(可选)：
```
python scripts/data_preparation/create_lmdb.py
```
- 显著提升数据读取速度
- 适合大规模训练场景

元信息文件生成(可选)：

python scripts/data_preparation/generate_meta_info.py

其他常用医学图像数据集

数据集类型	代表性数据集	特点
经典训练集	T91, BSDS200	小规模训练集
经典测试集	Set5, Set14	标准测试基准
高分辨率集	DIV2K, Flickr2K	2K分辨率图像
特殊场景集	OST, PIRM	特定场景数据

视频超分辨率数据集

REDS数据集处理

关键步骤：

数据集重组：将原始训练集和验证集合并后重新划分
```
python scripts/data_preparation/regroup_reds_dataset.py
```
两种验证划分方式：
- 官方划分：30个clip(240-269)
- REDS4划分：4个特定clip(000,011,015,020)

Vimeo90K数据集处理

处理要点：

下载原始Septuplets数据集(82GB)
使用MATLAB脚本生成低分辨率版本
可选转换为LMDB格式

StyleGAN2相关数据集

FFHQ数据集处理

处理流程：

下载TFRecords格式原始数据

提取为图像或LMDB格式

python scripts/data_preparation/extract_images_from_tfrecords.py

按分辨率分别存储

最佳实践建议

存储策略选择：
- 小规模实验：直接使用硬盘存储
- 大规模训练：优先使用LMDB格式
- 集群环境：考虑Memcached
性能优化：
- 合理设置PNG压缩级别(1-9)
- 首次使用LMDB时预缓存数据
- 监控系统缓存使用情况
数据预处理：
- 根据实际需求裁剪适当大小的子图
- 保持训练和测试数据预处理方式一致

通过本文的指导，研究人员可以高效地准备Surgical-Image-Restoration项目所需的各种数据集，为后续的模型训练和评估奠定坚实基础。

登录后查看全文

项目优选

收起

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

456

438

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

CANN 学习中心仓，支持在线互动运行、边学边练，提供教程、示例与优化方案，一站式助力昇腾开发者快速上手。