HigherOrderCO/hvm-lang项目中Bitonic Sort性能下降问题分析

2025-05-12 19:44:08作者：滕妙奇

问题背景

在HigherOrderCO/hvm-lang项目中，Bitonic Sort算法的实现出现了显著的性能下降问题。该算法在RTX 4090显卡上的执行性能从约12000 MIPS下降到了约6000 MIPS，降幅达到50%。这一性能退化发生在项目版本更新过程中，引起了开发团队的高度关注。

性能退化原因分析

通过代码比对和版本回溯，开发团队发现性能下降主要与两个关键变化有关：

线性化和η-规约(eta-reduction)的顺序调整：在版本更新中，团队调整了desugar_use的执行顺序，使其在linearize_matches、check_unbound_vars和make_var_names_unique之前执行。这一调整本意是优化性能，却意外导致了性能下降。
函数定义结构的改变：新版本生成的代码在函数定义结构上有所变化，特别是swap函数的实现方式发生了改变。旧版本使用显式的参数传递，而新版本则采用了更简洁的η-规约形式。

深入技术细节

η-规约的影响

η-规约是一种编译器优化技术，它可以将形如λx. f x的表达式简化为f。在理论层面，这种优化应该提高性能，因为它减少了不必要的函数调用层次。然而在实际运行中，特别是在CUDA运行时环境下，这种优化却导致了性能下降。

开发团队通过隔离测试发现：

单独对warp、down和flow函数进行η-规约都会导致性能下降
组合应用这些规约会使性能进一步降低
在CPU环境下，同样的优化确实带来了轻微的性能提升

函数调用结构的改变

旧版本的代码将main函数中的sort和gen调用提升为独立的辅助函数，这使得sum可以比sort提前开始执行，两者又都可以比gen提前开始。这种结构在理论上有利于并行化执行。

然而测试表明，无论是保持原有结构还是改为新结构，性能表现都相同，说明这不是导致性能下降的主要原因。

解决方案

基于分析结果，开发团队采取了以下措施：

暂时禁用η-规约：作为短期解决方案，团队决定在Bend编译器中暂时禁用η-规约优化，以恢复原有性能水平。
深入研究CUDA运行时特性：团队认识到需要更深入地理解η-规约在CUDA环境下的实际影响机制，特别是它对工作调度和线程分配的影响。

经验教训

这一事件为团队提供了宝贵的经验：

优化并非总是带来预期效果：即使在理论上有益的优化，在实际硬件环境中也可能产生反效果。
测试覆盖的重要性：性能测试需要覆盖各种硬件平台，特别是GPU等并行计算环境。
变更隔离测试的必要性：对于编译器优化，应该能够独立启用/禁用各项优化，以便准确评估每项优化的实际效果。

未来工作方向

团队计划从以下几个方面继续深入研究：

η-规约对CUDA工作调度的影响机制：需要建立更精确的性能模型来预测这类优化的实际效果。
智能优化策略：开发能够根据目标硬件平台自动选择最优优化策略的机制。
更全面的性能测试套件：建立覆盖各种算法模式和硬件环境的性能基准测试。

这一问题的解决过程展示了编译器优化工作的复杂性，特别是在面向异构计算环境时，理论优化与实际性能之间可能存在意想不到的差距。

登录后查看全文

项目优选

收起

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

deepin linux kernel

Ascend Extension for PyTorch

JiuwenSwarm 是一款基于openJiuwen开发的智能AI Agent，它能够将大语言模型的强大能力，通过你日常使用的各类通讯应用，直接延伸至你的指尖。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started