PyTorch/XLA 中 Adam 优化器在惰性张量追踪时的性能问题分析

2025-06-30 04:16:24作者：廉彬冶Miranda

问题背景

在 PyTorch/XLA 项目中，开发者发现当使用 Adam 优化器时，惰性张量(Lazy Tensor)的追踪(tracing)时间会出现显著的性能下降。这个问题最初在社区讨论中被报告，随后被确认为一个需要解决的重要性能问题。

问题现象

通过基准测试可以观察到以下现象：

基础情况下(未应用任何优化)，Adam 优化器步骤的中位追踪时间约为 0.48 秒
应用了 PyTorch 的元函数优化后，时间降低到 0.15 秒
完全禁用功能化(functionalization)后，性能最佳，达到 0.04 秒

技术分析

功能化与元函数的影响

PyTorch/XLA 使用功能化(functionalization)技术来处理原地操作(in-place operations)，将其转换为功能化的版本。在这个过程中，系统会调用元函数(meta functions)来执行形状推断和类型检查等操作。

问题的根源在于：

功能化过程中调用的元函数实现存在性能开销
Adam 优化器的实现涉及大量张量操作，这些操作在惰性执行模式下需要经过额外的追踪步骤
元函数的执行路径没有被充分优化，导致在频繁调用时产生累积性能损耗

解决方案探讨

PyTorch 核心开发团队提出了几种解决方案：

优化元函数实现：通过 PR#136909 修复了部分元函数的性能问题，但测试表明这并未完全解决问题
禁用功能化：通过设置环境变量可以完全绕过功能化过程，但这会失去相关安全检查
选择性禁用元函数：在功能化内核中添加开关，允许在已知安全的情况下跳过元函数执行

实现方案

经过讨论，开发团队决定采用第三种方案，即在功能化内核中添加配置选项，允许选择性禁用元函数参考实现。具体实现方式为：

bool disableMetaReference() {
    static auto _value = std::getenv("TORCH_DISABLE_FUNCTIONALIZATION_META_REF");
    return _value != nullptr && strcmp(_value, "1") == 0;
}

这种实现具有以下特点：

通过环境变量控制，灵活性高
保持原有功能化逻辑不变，只是选择性跳过元函数执行
在已知操作安全的情况下可以显著提升性能

技术影响

这一优化对 PyTorch/XLA 用户具有以下意义：

性能提升：对于使用 Adam 等复杂优化器的模型，训练速度可以得到显著改善
兼容性：相比完全禁用功能化，这种方案保持了更好的兼容性和安全性
可控性：用户可以根据具体场景选择是否启用这一优化

最佳实践建议

对于遇到类似性能问题的用户，可以考虑：

首先尝试更新到包含此修复的 PyTorch/XLA 版本
在性能关键路径上评估是否可以使用此优化
在确保操作安全性的前提下，通过环境变量启用优化

这一优化已经合并到 PyTorch/XLA 的主干代码中，用户可以通过更新版本来获得性能改进。

xla

Enabling PyTorch on XLA Devices (e.g. Google TPU)

项目地址：https://gitcode.com/gh_mirrors/xla/xla

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

leetcode

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。