PyTorch教程中关于逐样本梯度计算的正确实现方式

2025-05-27 08:26:05作者：滕妙奇

在PyTorch的官方教程中，有一个关于逐样本梯度(per-sample gradient)计算的示例代码存在一个容易引起误解的实现问题。这个问题涉及到神经网络输出层的处理方式，特别是分类任务中常见的logits和概率分布转换。

问题背景

在分类任务中，神经网络的最后一层通常会输出未经归一化的logits值。为了计算交叉熵损失，我们需要先将这些logits转换为概率分布。PyTorch提供了两种主要方式：

先使用log_softmax转换，再使用nll_loss计算负对数似然损失
直接使用cross_entropy损失函数，它内部会自动进行log_softmax转换

原教程代码的问题

原教程中的网络定义部分存在一个逻辑问题：它先对输出应用了log_softmax，但在计算损失时又直接使用了nll_loss而没有再次进行log_softmax转换。这会导致两个问题：

重复应用log_softmax会导致数值计算不正确
与PyTorch常规的logits处理方式不一致，容易误导初学者

正确的实现方式

正确的实现应该采用以下两种方式之一：

在网络前向传播中不进行任何softmax转换，保持输出为logits，然后在损失计算时使用cross_entropy：

def forward(self, x):
    x = self.fc1(x)
    x = F.relu(x)
    x = self.fc2(x)
    return x  # 保持为logits

def compute_loss(self, predictions, targets):
    return F.cross_entropy(predictions, targets)

或者明确地在网络中进行log_softmax转换，然后在损失计算时使用nll_loss：

def forward(self, x):
    x = self.fc1(x)
    x = F.relu(x)
    x = self.fc2(x)
    return F.log_softmax(x, dim=-1)  # 转换为log概率

def compute_loss(self, predictions, targets):
    return F.nll_loss(predictions, targets)