PyTorch深度学习项目中卷积神经网络训练问题解析

2025-05-16 18:43:17作者：舒璇辛Bertina

问题现象

在PyTorch深度学习项目实践中，开发者构建了一个用于FashionMNIST数据集的卷积神经网络模型（FashionMNISTModelV2），但在训练过程中遇到了模型无法正常学习的现象。具体表现为训练准确率和测试准确率都停留在10%左右（随机猜测水平），这表明模型未能从数据中学习到有效特征。

模型结构分析

该卷积神经网络模型采用了经典的双卷积块结构：

第一卷积块：
- 包含两个3x3卷积层，使用ReLU激活函数
- 每层都采用padding=1保持空间维度
- 最后接一个2x2最大池化层，步长为2
第二卷积块：
- 结构与第一卷积块相同
- 同样使用3x3卷积核和ReLU激活
- 最后进行2x2最大池化
分类器部分：
- 展平层(Flatten)
- 全连接层输出分类结果

从结构设计上看，这是一个合理的CNN架构，理论上应该能够有效学习图像特征。

问题根源探究

经过深入分析，发现问题并非出在模型结构本身，而是与代码实现顺序有关。具体原因在于：

模型实例化顺序错误：开发者在定义损失函数和优化器之后又创建了新的模型实例
优化器绑定问题：优化器绑定的是旧模型实例的参数，而实际训练使用的是新模型实例
参数更新失效：由于这种不一致性，导致梯度无法正确传播和参数更新

解决方案

正确的实现方式应该是：

先实例化模型：创建模型对象
再定义损失函数和优化器：确保优化器绑定的是当前模型参数
保持训练一致性：始终使用同一个模型实例进行训练和评估

修正后的关键代码流程：

# 1. 定义模型类
class FashionMNISTModelV2(nn.Module):
    # 模型结构定义...

# 2. 实例化模型
model_2 = FashionMNISTModelV2(...).to(device)

# 3. 定义损失函数和优化器
loss_fn = nn.CrossEntropyLoss()
optimizer = torch.optim.SGD(params=model_2.parameters(), lr=0.1)

# 4. 训练循环
for epoch in range(epochs):
    train_step(model=model_2, ...)
    test_step(model=model_2, ...)