深入理解卷积层：从理论到实践

2025-06-04 08:50:20作者：申梦珏Efrain

引言

在深度学习领域，卷积神经网络(CNN)因其在图像处理任务中的卓越表现而广受关注。本文将深入探讨卷积层的核心概念和工作原理，帮助读者从理论层面理解卷积操作，并通过实际案例展示其应用。

卷积与互相关的区别

严格来说，卷积层(convolutional layer)这个名称并不完全准确，因为它实际执行的是互相关(cross-correlation)操作而非数学上的严格卷积。二者的主要区别在于：

数学卷积需要对核进行180度旋转
互相关则直接使用原始核进行计算

在深度学习中，我们通常忽略这一区别，因为通过学习得到的核会自动适应这种差异。

二维互相关操作详解

让我们通过一个具体例子来理解二维互相关操作：

输入张量：一个3×3的矩阵
核张量：一个2×2的矩阵
操作过程：
- 将核从输入张量的左上角开始滑动
- 在每个位置，核覆盖的区域与输入对应位置相乘后求和
- 将结果写入输出张量的对应位置

二维互相关操作示意图

计算示例：

0×0 + 1×1 + 3×2 + 4×3 = 19
1×0 + 2×1 + 4×2 + 5×3 = 25
3×0 + 4×1 + 6×2 + 7×3 = 37
4×0 + 5×1 + 7×2 + 8×3 = 43

输出尺寸公式：

(n_h-k_h+1) \times (n_w-k_w+1)

卷积层的实现

一个完整的卷积层包含两个主要部分：

互相关计算
偏置项的添加

在PyTorch中的实现示例：

class Conv2D(nn.Module):
    def __init__(self, kernel_size):
        super().__init__()
        self.weight = nn.Parameter(torch.rand(kernel_size))
        self.bias = nn.Parameter(torch.zeros(1))

    def forward(self, x):
        return corr2d(x, self.weight) + self.bias

实际应用：边缘检测

卷积层的一个经典应用是图像边缘检测。我们可以：

构造一个6×8的模拟图像，中间四列为黑色(0)，其余为白色(1)
使用[1, -1]的核进行垂直边缘检测
观察输出结果中边缘的变化

实验结果表明：

白到黑的边缘检测为1
黑到白的边缘检测为-1
其他区域输出为0

从数据中学习核参数

更强大的是，我们可以让模型自动学习适合的核参数：

初始化随机核
通过比较输出与真实值的平方误差计算损失
使用梯度下降更新核参数

经过10次迭代后，学习到的核接近我们手动设计的[1, -1]边缘检测核，验证了学习过程的有效性。

特征图与感受野

重要概念解析：

特征图(Feature Map)：卷积层的输出，可以看作是在空间维度上学到的特征表示
感受野(Receptive Field)：影响特定输出元素计算的所有输入元素区域

随着网络加深，高层特征元素的感受野会不断扩大，使其能够捕捉更大范围的输入特征。

总结

二维卷积层的核心计算是互相关操作
可以设计特定核进行边缘检测等任务
核参数可以从数据中自动学习
特征图和感受野是理解CNN工作原理的关键概念
更深的网络可以扩大感受野，捕捉更全局的特征

思考题

如果对对角线边缘的图像应用[1, -1]核会得到什么结果？
如何将互相关操作表示为矩阵乘法？
设计计算二阶导数的核应该是什么形式？
计算d阶导数所需的最小核尺寸是多少？

通过本文的学习，读者应该对卷积层的工作原理有了更深入的理解，并能够将这些知识应用到实际的深度学习模型设计中。

登录后查看全文

热门内容推荐

1 【亲测免费】开源项目 `build-your-own-x` 使用指南 2 【亲测免费】探索科技之旅：《Build Your Own X》项目详解 3 GitHub_Trending/bu/build-your-own-x自动化：CI/CD流程在自制项目中的应用 4 从零打造智能家居系统：用build-your-own-x实现家庭自动化

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

flutter_flutter

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

AscendNPU-IR是基于MLIR（Multi-Level Intermediate Representation）构建的，面向昇腾亲和算子编译时使用的中间表示，提供昇腾完备表达能力，通过编译优化提升昇腾AI处理器计算效率，支持通过生态框架使能昇腾AI处理器与深度调优

昇腾LLM分布式训练框架