PyTorch Lightning中DDP策略下验证集处理的常见问题与解决方案

2025-05-05 01:39:57作者：滕妙奇

问题背景

在使用PyTorch Lightning进行分布式数据并行(DDP)训练时，许多开发者会遇到验证集处理相关的问题。特别是在on_validation_epoch_end回调中，当尝试基于整个验证数据集计算指标时，经常会出现程序挂起或卡住的情况。

典型错误场景

一个典型的错误实现方式如下：

self.validation_step_outputs = []
self.validation_step_clusters = []

def validation_step(self, batch, batch_idx):
    batch_tokens, clusters = batch
    projection = self._common_step(batch_tokens)
    self.validation_step_outputs.append(projection)
    self.validation_step_clusters.append(clusters)
  
def on_validation_epoch_end(self):
    if self.trainer.is_global_zero:  # 仅在主进程执行
        all_preds = torch.cat(self.validation_step_outputs, dim=0)
        all_clusters = LabelEncoder().fit_transform(
            list(itertools.chain.from_iterable(self.validation_step_clusters)))
        all_clusters = torch.tensor(all_clusters)
        
        self.validation_step_outputs.clear()
        self.validation_step_clusters.clear()

        loss = loss_func(all_preds, all_clusters)
        accuracy = self._cal_accuracy(all_preds, all_clusters)
                  
        self.log('validation_loss', loss, on_epoch=True, prog_bar=True)
        self.log('accuracy', accuracy, on_epoch=True, prog_bar=True)
    
    self.trainer.strategy.barrier()

这种实现方式在单GPU环境下可以正常工作，但在DDP策略下会导致程序挂起。

问题原因分析

日志调用的集体通信特性：self.log()方法内部会执行集体通信操作，这意味着所有进程都需要参与调用。如果只在主进程(rank 0)中调用self.log()，其他进程会被阻塞等待，导致程序挂起。
数据收集的不一致性：在DDP模式下，每个GPU只处理数据集的一部分。如果只在主进程中收集和计算指标，会导致结果不准确，因为缺少其他进程的数据。
屏障同步问题：手动添加的barrier()调用可能在不恰当的位置，进一步加剧了同步问题。

解决方案

方案一：使用rank_zero_only参数

最简单的解决方案是在调用self.log()时添加rank_zero_only=True参数：

self.log('validation_loss', loss, on_epoch=True, prog_bar=True, rank_zero_only=True)
self.log('accuracy', accuracy, on_epoch=True, prog_bar=True, rank_zero_only=True)

这种方式允许只在主进程记录日志，同时避免了集体通信问题。

方案二：完全分布式处理

更规范的解决方案是让所有进程都参与完整的验证流程：

def on_validation_epoch_end(self):
    # 所有进程都收集数据
    all_preds = torch.cat(self.validation_step_outputs, dim=0)
    all_clusters = LabelEncoder().fit_transform(
        list(itertools.chain.from_iterable(self.validation_step_clusters)))
    all_clusters = torch.tensor(all_clusters)
    
    self.validation_step_outputs.clear()
    self.validation_step_clusters.clear()

    loss = loss_func(all_preds, all_clusters)
    accuracy = self._cal_accuracy(all_preds, all_clusters)
              
    # 所有进程都记录日志
    self.log('validation_loss', loss, on_epoch=True, prog_bar=True)
    self.log('accuracy', accuracy, on_epoch=True, prog_bar=True)