PyTorch教程:神经网络代码与结构图对应关系解析
2025-05-27 01:43:32作者:范垣楠Rhoda
在PyTorch官方教程中,关于神经网络基础的部分展示了一个经典的卷积神经网络结构图及其实现代码。然而,初学者常常会遇到一个困惑:为什么代码中的层数与结构图中的层数看起来不一致?本文将深入解析这一现象,帮助读者理解PyTorch神经网络实现中的关键细节。
神经网络结构图与代码的对应关系
在教程中展示的神经网络结构图包含以下层次:
- 输入层(32x32图像)
- 卷积层C1(6个5x5卷积核)
- 下采样层S2(2x2最大池化)
- 卷积层C3(16个5x5卷积核)
- 下采样层S4(2x2最大池化)
- 全连接层F5(120个神经元)
- 全连接层F6(84个神经元)
- 输出层(10个神经元)
然而,在代码的__init__
方法中,我们只看到了5个层的定义:
self.conv1 = nn.Conv2d(1, 6, 5) # C1
self.conv2 = nn.Conv2d(6, 16, 5) # C3
self.fc1 = nn.Linear(16*5*5, 120) # F5
self.fc2 = nn.Linear(120, 84) # F6
self.fc3 = nn.Linear(84, 10) # 输出层
缺失的层去哪了?
实际上,完整的网络实现分散在两个部分:
__init__
方法中定义了需要学习参数的层(卷积层和全连接层)forward
方法中定义了不需要学习参数的操作(池化层、激活函数和展平操作)
这种设计是PyTorch的常见模式,将需要训练的参数(权重和偏置)放在__init__
中初始化,而将纯功能的操作放在forward
中实现。
完整网络实现解析
更清晰的实现方式是在forward
方法中也明确标注各层对应关系:
def forward(self, x):
# C1: 卷积层 + ReLU激活
x = F.relu(self.conv1(x))
# S2: 2x2最大池化
x = F.max_pool2d(x, 2)
# C3: 卷积层 + ReLU激活
x = F.relu(self.conv2(x))
# S4: 2x2最大池化
x = F.max_pool2d(x, 2)
# 展平操作(多维张量转为一维)
x = torch.flatten(x, 1)
# F5: 全连接层 + ReLU激活
x = F.relu(self.fc1(x))
# F6: 全连接层 + ReLU激活
x = F.relu(self.fc2(x))
# 输出层(无激活函数)
x = self.fc3(x)
return x
PyTorch的设计哲学
这种实现方式体现了PyTorch的几个重要设计理念:
- 参数与操作分离:需要学习的参数(权重矩阵)在
__init__
中定义,纯功能操作在forward
中实现 - 动态计算图:每次前向传播时动态构建计算图,使得网络结构更加灵活
- 函数式编程:通过
torch.nn.functional
模块提供各种无需状态的函数式操作
给初学者的建议
对于刚开始学习PyTorch的开发者,理解这种实现模式需要注意:
- 区分"层"(包含可学习参数)和"操作"(不包含参数)
- 激活函数通常作为操作而非层实现
- 池化、归一化等操作可以有层形式(保持状态)或函数形式(纯功能)
- 展平操作通常只在需要时显式调用
通过这种理解,开发者可以更清晰地构建自己的神经网络模型,并准确地将理论设计与实际代码对应起来。
登录后查看全文
热门项目推荐
- QQwen3-Next-80B-A3B-InstructQwen3-Next-80B-A3B-Instruct 是一款支持超长上下文(最高 256K tokens)、具备高效推理与卓越性能的指令微调大模型00
- QQwen3-Next-80B-A3B-ThinkingQwen3-Next-80B-A3B-Thinking 在复杂推理和强化学习任务中超越 30B–32B 同类模型,并在多项基准测试中优于 Gemini-2.5-Flash-Thinking00
GitCode-文心大模型-智源研究院AI应用开发大赛
GitCode&文心大模型&智源研究院强强联合,发起的AI应用开发大赛;总奖池8W,单人最高可得价值3W奖励。快来参加吧~0266cinatra
c++20实现的跨平台、header only、跨平台的高性能http库。C++00AI内容魔方
AI内容专区,汇集全球AI开源项目,集结模块、可组合的内容,致力于分享、交流。02- HHunyuan-MT-7B腾讯混元翻译模型主要支持33种语言间的互译,包括中国五种少数民族语言。00
GOT-OCR-2.0-hf
阶跃星辰StepFun推出的GOT-OCR-2.0-hf是一款强大的多语言OCR开源模型,支持从普通文档到复杂场景的文字识别。它能精准处理表格、图表、数学公式、几何图形甚至乐谱等特殊内容,输出结果可通过第三方工具渲染成多种格式。模型支持1024×1024高分辨率输入,具备多页批量处理、动态分块识别和交互式区域选择等创新功能,用户可通过坐标或颜色指定识别区域。基于Apache 2.0协议开源,提供Hugging Face演示和完整代码,适用于学术研究到工业应用的广泛场景,为OCR领域带来突破性解决方案。00- HHowToCook程序员在家做饭方法指南。Programmer's guide about how to cook at home (Chinese only).Dockerfile06
- PpathwayPathway is an open framework for high-throughput and low-latency real-time data processing.Python00
热门内容推荐
最新内容推荐
项目优选
收起

OpenHarmony documentation | OpenHarmony开发者文档
Dockerfile
139
1.91 K

deepin linux kernel
C
22
6

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台,包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分,采用java语言实现,可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用
Java
8
0

React Native鸿蒙化仓库
C++
192
273

🎉 (RuoYi)官方仓库 基于SpringBoot,Spring Security,JWT,Vue3 & Vite、Element Plus 的前后端分离权限管理系统
Vue
923
551

旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件,通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求,让密码技术应用更简单,同时探索后量子等先进算法创新实践,构建密码前沿技术底座!
C
421
392

openGauss kernel ~ openGauss is an open source relational database management system
C++
145
189

为非计算机科班出身 (例如财经类高校金融学院) 同学量身定制,新手友好,让学生以亲身实践开源开发的方式,学会使用计算机自动化自己的科研/创新工作。案例以量化投资为主线,涉及 Bash、Python、SQL、BI、AI 等全技术栈,培养面向未来的数智化人才 (如数据工程师、数据分析师、数据科学家、数据决策者、量化投资人)。
Jupyter Notebook
74
64

本仓将收集和展示高质量的仓颉示例代码,欢迎大家投稿,让全世界看到您的妙趣设计,也让更多人通过您的编码理解和喜爱仓颉语言。
Cangjie
344
1.3 K

Elasticsearch
国内Top1 elasticsearch搜索引擎框架es ORM框架,索引全自动智能托管,如丝般顺滑,与Mybatis-plus一致的API,屏蔽语言差异,开发者只需要会MySQL语法即可完成对Es的相关操作,零额外学习成本.底层采用RestHighLevelClient,兼具低码,易用,易拓展等特性,支持es独有的高亮,权重,分词,Geo,嵌套,父子类型等功能...
Java
36
8