PyTorch Lightning中WandbLogger的步数记录问题解析

2025-05-05 07:36:15作者：柏廷章Berta

pytorch-lightning是一个高性能深度学习框架，专为训练、微调和部署AI模型设计。具备简洁稳定API，支持多GPU与TPU加速，实现轻松扩展。集成4大核心模块：PyTorch Lightning简化代码结构，分离科学与工程；Lightning Fabric提供专家级控制；Lightning Data快速分布式数据流处理；Lightning Apps助您构建AI产品及ML工作流程。利用自动化的硬件适配能力，减少重复劳动，确保实验可复现性，同时保持PyTorch灵活性，适用于专业研究到实际应用的全场景需求。

项目地址：https://gitcode.com/gh_mirrors/pyt/pytorch-lightning

问题背景

在使用PyTorch Lightning框架进行深度学习模型训练时，WandbLogger是一个常用的日志记录工具，它可以将训练过程中的指标可视化到Weights & Biases平台上。然而，用户发现当不指定project参数时，WandbLogger会以不正确的方式记录训练步数(step)。

问题现象

当使用WandbLogger()而不指定项目名称时：

步数仅在epoch结束时递增
训练和验证的步数记录不一致
记录的步数值小于实际的全局训练步数

而当指定项目名称如WandbLogger(project='a')时：

步数记录与全局训练步数一致
训练和验证的步数记录保持同步

技术分析

这个问题实际上不是PyTorch Lightning或WandbLogger本身的bug，而是Weights & Biases平台的一个使用特性。当用户首次运行实验时，Wandb会自动将"Step"作为默认的x轴值。如果后续运行中不指定项目名称，Wandb会继续使用之前设置的"Step"作为x轴，而不是PyTorch Lightning提供的"trainer/global_step"。

解决方案

显式指定项目名称：始终为WandbLogger提供project参数
```
logger = WandbLogger(project='your_project_name')
```
清除默认设置：如果已经出现了这个问题，可以清除Wandb的默认项目(lightning_logs)设置
手动设置x轴：在Wandb界面中手动将x轴设置为"trainer/global_step"