Liger-Kernel项目中关于RMSNorm与SwiGLU激活重计算的技术解析

2025-06-10 01:16:29作者：胡易黎Nicole

背景与问题概述

在深度学习模型训练过程中，内存消耗一直是制约模型规模扩展的关键瓶颈。特别是在处理大规模语言模型时，诸如RMSNorm层和SwiGLU激活函数这类操作会占用大量显存存储中间结果。Liger-Kernel项目社区近期探讨了如何通过激活重计算技术来优化这一问题的解决方案。

技术原理分析

激活重计算的核心思想

激活重计算（Activation Recomputation）是一种典型的时间换空间策略，其核心思想是在前向传播过程中不保存某些中间计算结果，而是在反向传播需要时重新计算这些值。这种方法可以显著减少显存占用，但会增加一定的计算开销。

RMSNorm的特殊性

RMSNorm（Root Mean Square Layer Normalization）是LayerNorm的一种变体，它计算输入特征的均方根值进行归一化。在传统实现中，需要保存每行的标准差用于反向传播。值得注意的是，这部分中间张量的尺寸通常不大，因为它是按行计算的统计量。

SwiGLU激活函数的特点

SwiGLU（Switched Gated Linear Unit）结合了Sigmoid线性门控单元和Swish激活函数。在前向传播过程中，它会产生较大的中间激活值，这些值在标准实现中会被保存用于反向传播。

实现方案对比

基于PyTorch钩子机制的方案

社区中提出了一种基于PyTorch的register_hook机制的手动重计算方法。该方法通过以下步骤实现：

在前向传播后立即丢弃中间激活值
在反向传播时通过注册的钩子重新计算所需激活
使用随机数生成器状态记录器确保随机操作的确定性

内核级优化方案

Liger-Kernel团队提出了更底层的优化思路，认为直接在CUDA内核中实现重计算比通过PyTorch机制更高效。这种方案的潜在优势包括：

避免了额外的内核启动开销
减少了HBM与SRAM之间的数据传输
可以更精细地控制内存访问模式

性能考量

在实际应用中，选择哪种实现方案需要考虑以下因素：

中间张量的尺寸与重计算成本比
硬件特性（如内存带宽与计算能力的平衡）
框架层面的调度开销
随机数生成的一致性需求

技术展望

随着大模型训练的持续发展，内存优化技术将变得越来越重要。未来可能的发展方向包括：

更智能的自动重计算策略选择
与混合精度训练的深度结合
针对特定硬件的定制化优化
编译器级别的自动优化

这种底层优化工作虽然技术门槛较高，但对于推动大模型训练的边界具有重要价值，值得深度学习系统研发人员持续关注和投入。

Liger-Kernel

Efficient Triton Kernels for LLM Training

项目地址：https://gitcode.com/gh_mirrors/li/Liger-Kernel

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Java

nop-entropy

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

349

200

pytorch

Ascend Extension for PyTorch

无需学习 Kubernetes 的容器平台，在 Kubernetes 上构建、部署、组装和管理应用，无需 K8s 专业知识，全流程图形化管理