PyTorch教程:神经网络代码与结构图对应关系解析
2025-05-27 01:43:32作者:范垣楠Rhoda
在PyTorch官方教程中,关于神经网络基础的部分展示了一个经典的卷积神经网络结构图及其实现代码。然而,初学者常常会遇到一个困惑:为什么代码中的层数与结构图中的层数看起来不一致?本文将深入解析这一现象,帮助读者理解PyTorch神经网络实现中的关键细节。
神经网络结构图与代码的对应关系
在教程中展示的神经网络结构图包含以下层次:
- 输入层(32x32图像)
- 卷积层C1(6个5x5卷积核)
- 下采样层S2(2x2最大池化)
- 卷积层C3(16个5x5卷积核)
- 下采样层S4(2x2最大池化)
- 全连接层F5(120个神经元)
- 全连接层F6(84个神经元)
- 输出层(10个神经元)
然而,在代码的__init__
方法中,我们只看到了5个层的定义:
self.conv1 = nn.Conv2d(1, 6, 5) # C1
self.conv2 = nn.Conv2d(6, 16, 5) # C3
self.fc1 = nn.Linear(16*5*5, 120) # F5
self.fc2 = nn.Linear(120, 84) # F6
self.fc3 = nn.Linear(84, 10) # 输出层
缺失的层去哪了?
实际上,完整的网络实现分散在两个部分:
__init__
方法中定义了需要学习参数的层(卷积层和全连接层)forward
方法中定义了不需要学习参数的操作(池化层、激活函数和展平操作)
这种设计是PyTorch的常见模式,将需要训练的参数(权重和偏置)放在__init__
中初始化,而将纯功能的操作放在forward
中实现。
完整网络实现解析
更清晰的实现方式是在forward
方法中也明确标注各层对应关系:
def forward(self, x):
# C1: 卷积层 + ReLU激活
x = F.relu(self.conv1(x))
# S2: 2x2最大池化
x = F.max_pool2d(x, 2)
# C3: 卷积层 + ReLU激活
x = F.relu(self.conv2(x))
# S4: 2x2最大池化
x = F.max_pool2d(x, 2)
# 展平操作(多维张量转为一维)
x = torch.flatten(x, 1)
# F5: 全连接层 + ReLU激活
x = F.relu(self.fc1(x))
# F6: 全连接层 + ReLU激活
x = F.relu(self.fc2(x))
# 输出层(无激活函数)
x = self.fc3(x)
return x
PyTorch的设计哲学
这种实现方式体现了PyTorch的几个重要设计理念:
- 参数与操作分离:需要学习的参数(权重矩阵)在
__init__
中定义,纯功能操作在forward
中实现 - 动态计算图:每次前向传播时动态构建计算图,使得网络结构更加灵活
- 函数式编程:通过
torch.nn.functional
模块提供各种无需状态的函数式操作
给初学者的建议
对于刚开始学习PyTorch的开发者,理解这种实现模式需要注意:
- 区分"层"(包含可学习参数)和"操作"(不包含参数)
- 激活函数通常作为操作而非层实现
- 池化、归一化等操作可以有层形式(保持状态)或函数形式(纯功能)
- 展平操作通常只在需要时显式调用
通过这种理解,开发者可以更清晰地构建自己的神经网络模型,并准确地将理论设计与实际代码对应起来。
登录后查看全文
热门项目推荐
相关项目推荐
GLM-4.6
GLM-4.6在GLM-4.5基础上全面升级:200K超长上下文窗口支持复杂任务,代码性能大幅提升,前端页面生成更优。推理能力增强且支持工具调用,智能体表现更出色,写作风格更贴合人类偏好。八项公开基准测试显示其全面超越GLM-4.5,比肩DeepSeek-V3.1-Terminus等国内外领先模型。【此简介由AI生成】Jinja00- DDeepSeek-V3.2-ExpDeepSeek-V3.2-Exp是DeepSeek推出的实验性模型,基于V3.1-Terminus架构,创新引入DeepSeek Sparse Attention稀疏注意力机制,在保持模型输出质量的同时,大幅提升长文本场景下的训练与推理效率。该模型在MMLU-Pro、GPQA-Diamond等多领域公开基准测试中表现与V3.1-Terminus相当,支持HuggingFace、SGLang、vLLM等多种本地运行方式,开源内核设计便于研究,采用MIT许可证。【此简介由AI生成】Python00
openPangu-Ultra-MoE-718B-V1.1
昇腾原生的开源盘古 Ultra-MoE-718B-V1.1 语言模型Python00ops-transformer
本项目是CANN提供的transformer类大模型算子库,实现网络在NPU上加速计算。C++0118AI内容魔方
AI内容专区,汇集全球AI开源项目,集结模块、可组合的内容,致力于分享、交流。02Spark-Chemistry-X1-13B
科大讯飞星火化学-X1-13B (iFLYTEK Spark Chemistry-X1-13B) 是一款专为化学领域优化的大语言模型。它由星火-X1 (Spark-X1) 基础模型微调而来,在化学知识问答、分子性质预测、化学名称转换和科学推理方面展现出强大的能力,同时保持了强大的通用语言理解与生成能力。Python00GOT-OCR-2.0-hf
阶跃星辰StepFun推出的GOT-OCR-2.0-hf是一款强大的多语言OCR开源模型,支持从普通文档到复杂场景的文字识别。它能精准处理表格、图表、数学公式、几何图形甚至乐谱等特殊内容,输出结果可通过第三方工具渲染成多种格式。模型支持1024×1024高分辨率输入,具备多页批量处理、动态分块识别和交互式区域选择等创新功能,用户可通过坐标或颜色指定识别区域。基于Apache 2.0协议开源,提供Hugging Face演示和完整代码,适用于学术研究到工业应用的广泛场景,为OCR领域带来突破性解决方案。00- HHowToCook程序员在家做饭方法指南。Programmer's guide about how to cook at home (Chinese only).Dockerfile011
- PpathwayPathway is an open framework for high-throughput and low-latency real-time data processing.Python00
最新内容推荐
ZLIB 1.3 静态库 Windows x64 版本:高效数据压缩解决方案完全指南 JavaWeb企业门户网站源码 - 企业级门户系统开发指南 WebVideoDownloader:高效网页视频抓取工具全面使用指南 海能达HP680CPS-V2.0.01.004chs写频软件:专业对讲机配置管理利器 STM32到GD32项目移植完全指南:从兼容性到实战技巧 昆仑通态MCGS与台达VFD-M变频器通讯程序详解:工业自动化控制完美解决方案 瀚高迁移工具migration-4.1.4:企业级数据库迁移的智能解决方案 PANTONE潘通AI色板库:设计师必备的色彩管理利器 CrystalIndex资源文件管理系统:高效索引与文件管理的最佳实践指南 PhysioNet医学研究数据库:临床数据分析与生物信号处理的权威资源指南
项目优选
收起

deepin linux kernel
C
23
6

OpenHarmony documentation | OpenHarmony开发者文档
Dockerfile
225
2.27 K

React Native鸿蒙化仓库
JavaScript
212
287

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台,包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分,采用java语言实现,可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用
Java
9
1

暂无简介
Dart
527
116

🎉 (RuoYi)官方仓库 基于SpringBoot,Spring Security,JWT,Vue3 & Vite、Element Plus 的前后端分离权限管理系统
Vue
987
583

openGauss kernel ~ openGauss is an open source relational database management system
C++
148
197

GLM-4.6在GLM-4.5基础上全面升级:200K超长上下文窗口支持复杂任务,代码性能大幅提升,前端页面生成更优。推理能力增强且支持工具调用,智能体表现更出色,写作风格更贴合人类偏好。八项公开基准测试显示其全面超越GLM-4.5,比肩DeepSeek-V3.1-Terminus等国内外领先模型。【此简介由AI生成】
Jinja
47
0

ArkUI-X adaptation to Android | ArkUI-X支持Android平台的适配层
C++
39
55

ArkUI-X adaptation to iOS | ArkUI-X支持iOS平台的适配层
Objective-C++
19
44