JAX神经网络中的激活值返回与JIT编译机制解析——基于uvadlc_notebooks项目

2025-06-28 04:40:14作者：咎竹峻Karen

uvadlc_notebooks

Repository of Jupyter notebook tutorials for teaching the Deep Learning Course at the University of Amsterdam (MSc AI), Fall 2022/Spring 2022

项目地址：https://gitcode.com/gh_mirrors/uv/uvadlc_notebooks

在深度学习框架JAX的实际应用中，我们经常需要在神经网络训练过程中获取中间层的激活值用于可视化或调试。本文将以uvadlc_notebooks项目中的BaseNetwork实现为例，深入探讨JAX中返回激活值的实现机制及其与JIT编译的关系。

激活值收集的实现方式

在BaseNetwork类中，通过设置return_activations参数，我们可以选择是否返回各层的激活值。核心实现逻辑如下：

activations = []
for hd in self.hidden_sizes:
    x = nn.Dense(hd, kernel_init=self.kernel_init)(x)
    activations.append(x)  # 收集线性变换后的激活值
    x = self.act_fn(x)    # 应用激活函数
    activations.append(x)  # 收集激活函数后的激活值
x = nn.Dense(self.num_classes, kernel_init=self.kernel_init)(x)
activations.append(x)      # 收集输出层的激活值
return x if not return_activations else (x, activations)

这种实现方式看似违反了JAX的不可变原则，但实际上完全符合JAX的设计哲学。

JIT编译与不可变性的关系

JAX要求被JIT编译的函数必须保持函数式编程的不可变性，但这主要针对的是函数外部的可变对象。在函数内部创建的临时可变对象（如这里的activations列表）不会影响JIT编译，因为：

局部作用域：列表对象仅在函数内部创建和修改，不会影响外部状态
静态形状：列表长度由网络结构决定（hidden_sizes的长度），是静态可知的
输出转换：最终返回的是转换后的不可变元组，而非可变列表本身

JAXPR视角下的激活值返回

从JAX的中间表示（JAXPR）来看，这种实现会被转换为：

各层计算保持独立，生成各自的激活值张量
最终将所有激活值张量打包成一个PyTree结构（这里是列表）
返回的元组包含预测结果和激活值列表

这种转换完全符合JAX的函数式转换要求，因为虽然过程中使用了可变列表收集数据，但最终输出是不可变的数据结构。

实际应用建议

在实际项目中，如果需要返回中间结果，可以遵循以下原则：

确保所有收集的数据形状在编译时可知
避免收集依赖于输入数据的动态数量的结果
最终返回不可变的数据结构（如元组、命名元组等）
对于复杂场景，考虑使用jax.tree_util构建更结构化的输出

通过这种方式，我们既能获得需要的中间结果，又能充分利用JAX的JIT编译优化，实现高效的神经网络训练和调试。

uvadlc_notebooks

Repository of Jupyter notebook tutorials for teaching the Deep Learning Course at the University of Amsterdam (MSc AI), Fall 2022/Spring 2022

项目地址：https://gitcode.com/gh_mirrors/uv/uvadlc_notebooks

登录后查看全文

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

flutter_flutter

Ascend Extension for PyTorch

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

ohos_react_native

React Native鸿蒙化仓库

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。