TorchGeo中class_weights参数的设计思考与最佳实践

2025-06-24 18:53:16作者：申梦珏Efrain

背景介绍

TorchGeo是一个用于地理空间数据深度学习的PyTorch库，在语义分割任务中，class_weights参数是一个重要的超参数，用于处理类别不平衡问题。本文探讨了该参数在不同使用场景下的设计考量。

参数类型的设计演进

TorchGeo中的SemanticSegmentationTask模块对class_weights参数的类型支持经历了几个阶段：

初始阶段：仅支持列表(list)类型输入
扩展阶段：增加了对numpy数组和torch张量的支持
简化阶段：又缩减为仅支持torch张量
当前讨论：重新考虑支持列表输入以提升配置灵活性

不同使用场景的需求分析

1. 配置文件(YAML)使用场景

当通过Lightning CLI使用YAML配置文件时，用户更倾向于直接使用列表形式指定类别权重：

class_weights:
  - 1
  - 50

这种形式直观且易于维护，符合配置文件的常规使用习惯。

2. 编程式使用场景

在代码中直接实例化模型时，开发者可能已经计算好了张量形式的权重：

counts = histogram(dataset)  # 返回张量
weights = counts / counts.sum()  # 动态计算的权重

此时强制转换为列表再转回张量显得多余，直接使用张量更为高效。

技术实现考量

类型提示的复杂性

支持多种输入类型会增加类型提示的复杂性，需要考虑：

列表(List[float])
numpy数组(np.ndarray)
torch张量(torch.Tensor)

内部转换逻辑

无论外部输入类型如何，最终都需要转换为torch.Tensor供模型使用。合理的做法是在内部统一处理：

if class_weights is not None:
    if not isinstance(class_weights, torch.Tensor):
        class_weights = torch.tensor(class_weights, dtype=torch.float)

配置系统兼容性

Lightning CLI对配置文件的解析有特定要求，需要确保类型系统能够正确处理来自YAML的列表输入。

最佳实践建议

同时支持列表和张量输入：保持API的灵活性，满足不同使用场景
清晰的类型提示：使用Union类型明确支持的输入类型
内部统一转换：在模型内部尽早将各种输入转换为张量
完善的文档说明：明确说明支持的输入类型和格式要求

实现示例

from typing import Union, List
import torch

class SemanticSegmentationTask:
    def __init__(
        self,
        class_weights: Union[List[float], torch.Tensor, None] = None,
        **kwargs
    ):
        if class_weights is not None and not isinstance(class_weights, torch.Tensor):
            self.class_weights = torch.tensor(class_weights, dtype=torch.float)
        else:
            self.class_weights = class_weights