PyTorch/XLA 项目中 SDPA 在 TPU v5e 上的性能退化问题分析

2025-06-30 04:14:41作者：昌雅子Ethen

Enabling PyTorch on XLA Devices (e.g. Google TPU)

项目地址：https://gitcode.com/gh_mirrors/xla/xla

在 PyTorch/XLA 项目的 2.6.0 版本中，用户发现了一个严重的性能退化问题：当在 TPU v5e 设备上使用 torch.nn.functional.scaled_dot_product_attention (SDPA) 函数时，其执行速度比之前的版本慢了超过 100 倍。这个问题对于依赖注意力机制的现代神经网络架构有着重大影响。

问题表现

通过基准测试可以清楚地看到性能差异。在 2.4.0 和 2.5.1 版本中，SDPA 函数的执行时间约为 0.7 毫秒（无混合精度）和 0.25 毫秒（混合精度），与标准注意力实现相当。然而在 2.6.0 版本中，SDPA 的执行时间飙升至约 116 毫秒（无混合精度）和 106 毫秒（混合精度），而标准注意力实现仍保持原有性能。

问题根源

深入分析后发现，问题的根源在于 PyTorch 的一个相关提交引入了对 isneginf() 函数的使用，而 XLA 后端未能正确降低这个操作。这导致部分计算意外地回退到 CPU 执行，从而造成了严重的性能下降。

具体来说，当 XLA 遇到无法降低的操作时，会使用 xla_fallback 机制（以前称为 xla_cpu_fallback）将计算回退到 CPU。在 TPU 环境中，这种 CPU 回退操作会带来巨大的性能开销。

解决方案

PyTorch/XLA 团队采取了以下措施解决这个问题：

实现了 isneginf 操作在 XLA 后端的正确降低，避免了不必要的 CPU 回退
通过添加适当的测试用例确保类似问题不会再次发生
将修复向后移植到 2.7 版本分支

技术启示

这个案例为我们提供了几个重要的技术启示：

性能回归测试的重要性：即使功能正确，性能退化也可能严重影响实际应用
跨设备兼容性：在 PyTorch 核心的改动可能对不同的后端（如 XLA/TPU）产生意外影响
回退机制的代价：虽然回退机制保证了功能的可用性，但可能带来严重的性能惩罚

对于使用 PyTorch/XLA 进行 TPU 开发的用户，建议：

定期进行性能基准测试，特别是在版本升级时
关注官方发布的已知问题和修复
对于关键操作，考虑实现替代版本作为性能对比参考

这个问题也展示了开源社区协作的价值，从问题报告到根本原因分析，再到解决方案的实施和验证，整个过程体现了开发者社区的效率和专业性。

Enabling PyTorch on XLA Devices (e.g. Google TPU)

项目地址：https://gitcode.com/gh_mirrors/xla/xla

登录后查看全文

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

flutter_flutter

Ascend Extension for PyTorch

ohos_react_native

React Native鸿蒙化仓库

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。