PointMetaBase项目中的点云分类训练流程解析

2025-07-07 03:40:00作者：温艾琴Wonderful

概述

PointMetaBase项目中的train.py文件实现了一个完整的点云分类模型训练流程。本文将深入解析该训练脚本的核心组件和工作原理，帮助读者理解如何在点云数据上训练分类模型。

核心组件

1. 数据加载与预处理

脚本使用build_dataloader_from_cfg函数构建训练、验证和测试数据加载器。关键点包括：

支持分布式训练数据加载
可配置的批量大小和数据转换
自动获取数据集的类别数和采样点数

train_loader = build_dataloader_from_cfg(cfg.batch_size,
                                        cfg.dataset,
                                        cfg.dataloader,
                                        datatransforms_cfg=cfg.datatransforms,
                                        split='train',
                                        distributed=cfg.distributed)

2. 模型构建

模型通过build_model_from_cfg函数从配置构建：

自动计算模型参数量
支持SyncBatchNorm同步批归一化
支持分布式数据并行(DDP)

model = build_model_from_cfg(cfg.model).to(cfg.rank)
if cfg.sync_bn:
    model = torch.nn.SyncBatchNorm.convert_sync_batchnorm(model)
if cfg.distributed:
    model = nn.parallel.DistributedDataParallel(model.cuda())

3. 优化器与学习率调度

优化器和学习率调度器也通过配置构建：

支持多种优化器类型
灵活的学习率调度策略
可配置的梯度裁剪

optimizer = build_optimizer_from_cfg(model, lr=cfg.lr, **cfg.optimizer)
scheduler = build_scheduler_from_cfg(cfg, optimizer)

训练流程

1. 训练循环

主训练循环包含以下关键步骤：

设置模型为训练模式
数据采样和预处理
前向传播和损失计算
反向传播和参数更新
性能指标计算和记录

for epoch in range(cfg.start_epoch, cfg.epochs + 1):
    train_loss, train_macc, train_oa, _, _ = \
        train_one_epoch(model, train_loader, optimizer, scheduler, epoch, cfg)

2. 点云采样策略

训练中采用了灵活的点云采样策略：

支持不同点数的采样(1024, 4096, 8192等)
使用最远点采样(FPS)保持点云几何特征
动态调整采样点数

if num_curr_pts > npoints:
    fps_idx = furthest_point_sample(points[:, :, :3].contiguous(), point_all)
    points = torch.gather(points, 1, fps_idx.unsqueeze(-1).long().expand(-1, -1, points.shape[-1]))

3. 验证与测试

定期在验证集上评估模型性能：

计算分类准确率(OA)和平均类别准确率(mAcc)
记录最佳模型
最终在测试集上评估最佳模型

if epoch % cfg.val_freq == 0:
    val_macc, val_oa, val_accs, val_cm = validate_fn(model, val_loader, cfg)
    is_best = val_oa > best_val

关键功能实现

1. 训练单epoch实现

train_one_epoch函数实现了单个epoch的训练逻辑：

使用混淆矩阵跟踪分类性能
支持梯度累积
动态学习率调整

for idx, data in pbar:
    # 前向传播和损失计算
    logits, loss = model.get_logits_loss(data, target)
    loss.backward()
    
    # 梯度累积和参数更新
    if num_iter == cfg.step_per_update:
        optimizer.step()
        model.zero_grad()

2. 验证函数实现

validate函数实现了模型验证逻辑：

使用评估模式
计算各类别准确率
支持分布式评估结果聚合

@torch.no_grad()
def validate(model, val_loader, cfg):
    model.eval()
    cm = ConfusionMatrix(num_classes=cfg.num_classes)
    # ...验证过程...
    if cfg.distributed:
        dist.all_reduce(tp), dist.all_reduce(count)
    return macc, overallacc, accs, cm

实用功能

1. 结果记录

脚本提供了多种结果记录方式：

TensorBoard日志记录
CSV文件结果保存
控制台分类结果打印

def print_cls_results(oa, macc, accs, epoch, cfg):
    s = f'\nClasses\tAcc\n'
    for name, acc_tmp in zip(cfg.classes, accs):
        s += '{:10}: {:3.2f}%\n'.format(name, acc_tmp)
    logging.info(s)

2. 检查点管理

支持多种模型检查点操作：

从预训练模型初始化
保存最佳模型
恢复训练

if cfg.mode == 'resume':
    resume_checkpoint(cfg, model, optimizer, scheduler, pretrained_path=cfg.pretrained_path)
elif cfg.mode == 'finetune':
    load_checkpoint(model, cfg.pretrained_path)