PyTorch Lightning中混合精度训练与手动优化的常见陷阱

2025-05-05 16:30:38作者：柯茵沙

pytorch-lightning是一个高性能深度学习框架，专为训练、微调和部署AI模型设计。具备简洁稳定API，支持多GPU与TPU加速，实现轻松扩展。集成4大核心模块：PyTorch Lightning简化代码结构，分离科学与工程；Lightning Fabric提供专家级控制；Lightning Data快速分布式数据流处理；Lightning Apps助您构建AI产品及ML工作流程。利用自动化的硬件适配能力，减少重复劳动，确保实验可复现性，同时保持PyTorch灵活性，适用于专业研究到实际应用的全场景需求。

项目地址：https://gitcode.com/gh_mirrors/pyt/pytorch-lightning

在PyTorch Lightning项目中使用混合精度训练(16位混合精度)时，开发者可能会遇到一个典型错误："Attempted unscale_ but _scale is None"。这个错误通常发生在尝试手动优化多个优化器的场景下。

问题现象

当开发者配置trainer.precision='16-mixed'并尝试手动管理多个优化器时，系统会抛出上述错误。具体表现为：

使用3个Adam优化器
每个优化器都配有ReduceLROnPlateau学习率调度器
在默认精度(32位)下运行正常
切换到16位混合精度时出现错误

根本原因

问题的核心在于混合精度训练需要特殊处理梯度缩放。PyTorch Lightning的自动混合精度(AMP)功能依赖于梯度缩放器(GradientScaler)来防止16位浮点数下的数值下溢。

在手动优化模式下，开发者错误地直接调用了loss.backward()而不是Lightning提供的manual_backward(loss)方法。后者会正确处理AMP所需的梯度缩放步骤。

解决方案

正确的做法是：

在LightningModule中重写optimizer_step方法时
使用self.manual_backward(loss)替代原生的loss.backward()
确保所有梯度计算都通过Lightning提供的接口

这种方法确保了：

梯度缩放器被正确初始化
前向传播和反向传播的精度转换得到妥善处理
多个优化器之间的梯度更新协调一致

最佳实践

对于需要在PyTorch Lightning中手动管理多个优化器的场景，建议：

始终使用Lightning提供的抽象接口(如manual_backward)
在混合精度训练时特别注意梯度缩放
测试时先使用默认精度验证逻辑正确性
切换到混合精度后监控数值稳定性
考虑使用Lightning的自动优化功能(如果可以满足需求)

理解这些底层机制可以帮助开发者更有效地利用PyTorch Lightning的高级功能，同时避免常见的陷阱。

pytorch-lightning

项目地址：https://gitcode.com/gh_mirrors/pyt/pytorch-lightning

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

RuoYi-Vue3

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Vue

1.26 K

692