Hi-FT/ERD项目训练指南：从标准数据集到自定义数据集

2025-06-19 09:46:51作者：裘旻烁

项目概述

Hi-FT/ERD是一个基于MMDetection框架的目标检测与实例分割项目，提供了丰富的预训练模型和灵活的配置选项。本文将详细介绍如何在标准数据集和自定义数据集上进行模型训练，帮助用户快速上手项目并应用于实际场景。

标准数据集训练

准备工作

在开始训练前，需要确保已经准备好标准数据集（如COCO）。数据集应按照项目要求的格式组织，通常包括图像文件和对应的标注文件。

重要提示：某些配置文件（如configs/cityscapes下的配置）使用COCO预训练权重进行初始化。如果网络连接不稳定，建议提前下载好预训练模型以避免训练初期出现错误。

学习率自动缩放机制

项目支持学习率自动缩放功能，这是基于线性扩展规则实现的。默认配置针对8块GPU（每块2张图像，总batch size=16）设置。关键点包括：

自动缩放功能默认关闭，需通过--auto-scale-lr参数启用
配置文件中auto_scale_lr.base_batch_size定义了基准batch size
不同配置文件的默认batch size可能不同，可通过文件名识别（如_NxM_表示N GPU×M图像）

使用示例：

python tools/train.py config_file --auto-scale-lr

训练方式

单GPU训练

基本命令格式：

python tools/train.py config_file [可选参数]

常用参数说明：

--work-dir：指定工作目录
--resume-from：从检查点恢复训练（保留优化器状态和迭代次数）
--no-validate：关闭训练过程中的验证（不推荐）

CPU训练

虽然支持，但由于性能问题仅建议用于调试：

export CUDA_VISIBLE_DEVICES=-1
python tools/train.py config_file

多GPU训练

使用分布式训练脚本：

bash ./tools/dist_train.sh config_file GPU数量 [可选参数]

多任务并行时需指定不同端口避免冲突：

CUDA_VISIBLE_DEVICES=0,1,2,3 PORT=29500 ./tools/dist_train.sh config_file 4
CUDA_VISIBLE_DEVICES=4,5,6,7 PORT=29501 ./tools/dist_train.sh config_file 4

多机训练

通过以太网连接的多机训练命令：第一台机器：

NNODES=2 NODE_RANK=0 PORT=MASTER_PORT MASTER_ADDR=MASTER_ADDR sh tools/dist_train.sh config_file GPUS

第二台机器：

NNODES=2 NODE_RANK=1 PORT=MASTER_PORT MASTER_ADDR=MASTER_ADDR sh tools/dist_train.sh config_file GPUS

Slurm集群管理

在Slurm管理的集群上训练：

GPUS=16 ./tools/slurm_train.sh 分区名称 任务名称 配置文件 工作目录

端口设置建议通过--options参数实现，避免修改原始配置文件：

--options 'dist_params.port=29500'

自定义数据集训练

数据集准备

项目支持三种自定义数据集方式：

转换为COCO格式（推荐）
转换为中间格式
实现全新数据集类

以balloon数据集为例，转换到COCO格式的关键步骤包括：

解析原始标注文件
构建COCO格式所需的images、annotations和categories字段
处理多边形标注和边界框信息

转换后的标注文件示例结构：

{
    "images": [{"id": 0, "file_name": "image1.jpg", ...}],
    "annotations": [{"image_id": 0, "category_id": 0, ...}],
    "categories": [{"id": 0, "name": "balloon"}]
}

配置文件调整

基于现有配置修改是最高效的方式。以Mask R-CNN为例：

修改基础配置路径
调整模型head中的类别数
配置数据集路径和元信息
设置数据加载器和评估器

关键配置示例：

_base_ = '../mask_rcnn/base_config.py'

model = dict(
    roi_head=dict(
        bbox_head=dict(num_classes=1),  # 修改为自定义类别数
        mask_head=dict(num_classes=1)))

metainfo = {
    'classes': ('balloon',),  # 自定义类别名称
    'palette': [(220, 20, 60)]  # 可视化颜色
}

训练与评估

启动训练：

python tools/train.py configs/balloon/custom_config.py

模型测试：

python tools/test.py configs/balloon/custom_config.py work_dirs/checkpoint.pth

最佳实践建议

数据准备：确保标注质量，特别是边界框和多边形标注的准确性
学习率设置：对于小数据集，建议使用较小的学习率
预训练权重：尽量使用与目标领域相近的预训练模型
验证频率：根据数据集大小调整验证间隔，大数据集可适当减少验证频率
可视化分析：定期检查训练日志和预测结果，及时发现问题

通过本指南，用户应该能够顺利地在Hi-FT/ERD项目上开展从标准数据集到自定义数据集的模型训练工作。根据实际需求调整配置和参数，可以获得更好的模型性能。

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

leetcode

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Java

RuoYi-Vue3

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Vue

1.38 K

781