PyTorch Lightning项目中GAN训练时未使用参数导致崩溃的解决方案

2025-05-05 11:04:53作者：申梦珏Efrain

问题背景

在使用PyTorch Lightning框架训练生成对抗网络(GAN)模型时，开发者遇到了一个常见但棘手的问题：当不使用ddp_find_unused_parameters_true策略时，训练过程会崩溃并提示模型存在未使用的参数。而当启用该策略后，虽然训练可以正常进行，但实际上并没有真正未使用的参数。

问题现象

具体表现为：

禁用ddp_find_unused_parameters_true时，训练崩溃并报错"模型有未使用的参数"
启用该策略后，训练正常进行但无实际未使用参数
问题根源与.detach()操作有关，移除该操作后问题消失

代码分析

问题出现在训练步骤中的以下关键代码段：

def training_step(self, batch, batch_idx):
    g_opt, d_opt = self.optimizers()

    src_img, drv_img = batch["src"], batch["drv"]
    gen_img = self.generator(src_img, drv_img)

    errD = self.gan_loss(drv_img, gen_img.detach(), opt_d=True)["errD"]

    d_opt.zero_grad(set_to_none=True)
    self.manual_backward(errD, retain_graph=True)
    d_opt.step()

    gan_loss = self.gan_loss(drv_img, gen_img, opt_d=False)
    perceptual_loss = self.perceptual_loss(drv_img, gen_img)

    errG = gan_loss["errG_GAN"] + gan_loss["errG_FM"] + perceptual_loss["vgg_imagenet"] + perceptual_loss["vgg_face"]

    g_opt.zero_grad(set_to_none=True)
    self.manual_backward(errG)
    g_opt.step()

问题根源

问题的根本原因在于PyTorch Lightning的分布式数据并行(DDP)模式对计算图的严格检查。当使用.detach()操作时，会创建一个新的张量，该张量不再保留原始计算图的梯度信息。在DDP模式下，框架会检查所有参数是否都参与了前向传播和反向传播的计算图构建。

解决方案

针对这个问题，有以下几种解决方案：

保留detach操作并使用ddp_find_unused_parameters_true策略
- 这是最简单的解决方案，但可能会带来轻微的性能开销
- 适用于快速验证和原型开发阶段
重构计算图以避免detach操作
- 可以尝试将判别器和生成器的训练步骤分开
- 使用两个独立的前向传播过程，而不是一个前向传播后detach
自定义训练循环
- 实现更精细的控制，手动管理梯度计算
- 适用于高级用户和对性能有严格要求的场景