PaddleSeg训练与评估中的图像尺寸问题解析

2025-05-26 10:09:10作者：滑思眉Philip

Easy-to-use image segmentation library with awesome pre-trained model zoo, supporting wide-range of practical tasks in Semantic Segmentation, Interactive Segmentation, Panoptic Segmentation, Image Matting, 3D Segmentation, etc.

项目地址：https://gitcode.com/gh_mirrors/pa/PaddleSeg

训练与评估阶段的图像尺寸处理

在PaddleSeg项目中，训练和评估阶段的图像尺寸处理是一个需要特别注意的技术点。许多开发者在使用过程中会遇到关于图像尺寸配置的疑问，特别是当训练阶段使用了动态尺寸变换时，评估阶段应该如何配置才能保持一致性。

训练阶段的尺寸变换

在训练配置中，常见的尺寸变换操作包括：

固定尺寸Resize：将输入图像统一调整到指定尺寸（如512x512）
动态尺寸变换：使用ResizeStepScaling等操作进行随机尺寸缩放

train_dataset:
  transforms:
    - type: Resize
      target_size: [512, 512]
    # 或
    - type: ResizeStepScaling
      min_scale_factor: 0.5
      max_scale_factor: 0.5
      scale_step_size: 0

评估阶段的尺寸处理

评估阶段通常建议使用固定尺寸，这与训练阶段可以有所不同：

如果训练使用固定尺寸，评估也应使用相同尺寸
如果训练使用动态变换，评估建议使用固定尺寸或原图尺寸

val_dataset:
  transforms:
    - type: Resize
      target_size: [512, 512]  # 固定评估尺寸

类别不平衡问题的解决方案

在样本数量极不平衡的情况下，PaddleSeg提供了多种处理方式：

损失函数权重调整

类别权重设置：为不同类别分配不同权重
多损失函数组合：如PP-LiteSeg使用3个输出头的损失组合

loss:
  types:
    - type: OhemCrossEntropyLoss
      min_kept: 130000
      weight: [0.5, 0.2, 0.3]  # 类别权重
    - type: OhemCrossEntropyLoss
      min_kept: 130000
      weight: [0.5, 0.2, 0.3]
    - type: OhemCrossEntropyLoss
      min_kept: 130000
      weight: [0.5, 0.2, 0.3]
  coef: [1, 1, 1]  # 损失函数权重

常用权重计算策略

Softmax归一化权重
基于最小类别样本数的权重
基于中位数样本数的权重
使用sklearn的compute_class_weight

PP-LiteSeg模型结构调整建议

当需要修改PP-LiteSeg的backbone_indices时，需要注意以下配套调整：

backbone_indices调整：从默认[2,3,4]改为[1,2,3]时
通道数配套调整：
- arm_out_chs应相应减小
- seg_head_inter_chs也应调整

model:
  type: PPLiteSeg
  backbone:
    type: STDC2
  backbone_indices: [1, 2, 3]  # 注意YAML语法
  arm_out_chs: [32, 32, 64]    # 调整后的通道数
  seg_head_inter_chs: [32, 32, 32]