D2L-ko项目解析：自动微分原理与实践

2025-06-04 10:39:45作者：龚格成

引言

在深度学习领域，自动微分（Automatic Differentiation）是训练神经网络模型的核心技术之一。本章将深入探讨自动微分的原理及其在深度学习框架中的实现方式，帮助读者理解这一关键技术的工作机制。

什么是自动微分

自动微分是一种计算导数的数值方法，它既不同于符号微分（Symbolic Differentiation），也不同于数值微分（Numerical Differentiation）。自动微分的核心思想是通过计算图（Computational Graph）来记录运算过程，然后利用链式法则（Chain Rule）反向传播梯度。

计算图的概念

计算图是自动微分的基础，它将数学运算表示为有向图：

节点代表变量（包括输入、输出和中间变量）
边代表运算操作

当我们在代码中定义计算过程时，框架会自动构建这样的计算图，为后续的梯度计算做准备。

自动微分的基本使用

梯度计算准备

在进行自动微分前，我们需要明确要对哪个变量求导。以简单的二次函数为例：

y = 2 * x^T * x

我们需要：

声明需要计算梯度的变量
在计算过程中记录运算步骤
执行反向传播计算梯度

实际代码示例

不同框架的实现略有不同，但核心思想一致：

MXNet实现：

x.attach_grad()  # 准备存储梯度
with autograd.record():  # 开始记录计算图
    y = 2 * np.dot(x, x)
y.backward()  # 反向传播
print(x.grad)  # 打印梯度

PyTorch实现：

x.requires_grad_(True)  # 启用梯度计算
y = 2 * torch.dot(x, x)
y.backward()  # 反向传播
print(x.grad)  # 打印梯度

TensorFlow实现：

x = tf.Variable(x)  # 转换为可求导变量
with tf.GradientTape() as t:  # 记录计算过程
    y = 2 * tf.tensordot(x, x, axes=1)
grad = t.gradient(y, x)  # 计算梯度
print(grad)

自动微分的高级特性

非标量反向传播

当函数的输出不是标量时，反向传播的行为需要特别注意。默认情况下，框架会对输出进行求和后再计算梯度：

y = x * x  # y是向量
y.sum().backward()  # 先求和再反向传播

这种设计符合深度学习的常见需求，因为损失函数对批量数据的梯度通常是每个样本梯度的总和。

计算分离

有时我们需要从计算图中分离某些变量，使其在反向传播时被视为常数。这在迁移学习和模型微调中特别有用：

u = y.detach()  # 分离y的计算历史
z = u * x
z.backward()  # 此时梯度不会传播到y

控制流的处理

自动微分的一个强大特性是能够处理包含条件判断和循环的复杂函数：

def f(a):
    b = a * 2
    while b.norm() < 1000:
        b = b * 2
    if b.sum() > 0:
        return b
    else:
        return 100 * b

即使函数包含控制流，框架仍然能够正确计算梯度，这是符号微分难以实现的特性。

自动微分的内部机制

前向模式与反向模式

自动微分有两种主要模式：

前向模式：适用于输入维度少、输出维度多的情况
反向模式（反向传播）：适用于输入维度多、输出维度少的情况（深度学习常见场景）

深度学习框架通常采用反向模式，因为它能高效地计算大量参数相对于标量损失函数的梯度。

梯度计算的内存管理

为了高效处理大规模模型，框架会精心管理梯度计算的内存：

梯度缓冲区复用
及时释放不需要的中间结果
原地操作优化

实际应用注意事项

梯度清零：在PyTorch中，梯度会累积，需要在每次迭代前手动清零
持久性梯度带：TensorFlow中默认梯度带只能使用一次，需要设置persistent=True才能多次使用
高阶导数：计算二阶导数需要保留一阶导数的计算图

总结

自动微分是现代深度学习框架的核心技术，它使得我们可以专注于模型设计而不必手动计算复杂的导数。理解自动微分的工作原理有助于：

更高效地调试模型
实现自定义操作和损失函数
优化模型训练过程

通过本章的学习，读者应该能够熟练使用自动微分功能，并理解其背后的基本原理，为进一步的深度学习实践打下坚实基础。

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

338

185

agent-studio

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力

openGauss kernel ~ openGauss is an open source relational database management system

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Vue

1.35 K

758

D2L-ko项目解析：自动微分原理与实践

引言

什么是自动微分

计算图的概念

自动微分的基本使用

梯度计算准备

实际代码示例

自动微分的高级特性

非标量反向传播

计算分离

控制流的处理

自动微分的内部机制

前向模式与反向模式

梯度计算的内存管理

实际应用注意事项

总结

热门内容推荐

最新内容推荐

项目优选

D2L-ko项目解析：自动微分原理与实践

引言

什么是自动微分

计算图的概念

自动微分的基本使用

梯度计算准备

实际代码示例

自动微分的高级特性

非标量反向传播

计算分离

控制流的处理

自动微分的内部机制

前向模式与反向模式

梯度计算的内存管理

实际应用注意事项

总结

相关内容推荐

热门内容推荐

最新内容推荐

项目优选