AdaptiveCpp项目中跨平台结果不一致问题的分析与解决

2025-07-10 05:50:34作者：齐冠琰

Implementation of SYCL and C++ standard parallelism for CPUs and GPUs from all vendors: The independent, community-driven compiler for C++-based heterogeneous programming models. Lets applications adapt themselves to all the hardware in the system - even at runtime!

项目地址：https://gitcode.com/gh_mirrors/ad/AdaptiveCpp

问题背景

在AdaptiveCpp项目开发过程中，开发者发现一个涉及SYCL并行计算的程序在不同平台上运行时产生了不一致的结果。该程序的核心功能是计算一个包含6000个1.0的向量的平方和，理论上结果应该是6000.0，但在某些平台上却得到了错误的结果。

问题现象

程序在以下不同配置下表现出不同的行为：

Linux平台使用CPU选择器（带OpenMP）：输出6000.0（正确）
Linux平台使用CPU选择器（不带OpenMP）：输出6904.0（错误）
Linux平台使用GPU选择器（ROCm 6, gfx1100）：输出6000.0（正确）
Mac平台（aarch64 CPU选择器）：输出6792.0（错误）

问题分析

通过分析原始代码，发现问题出在并行规约（reduction）算法的实现上。原始代码使用了以下规约逻辑：

auto stride = 1;
while (stride < l_blockSize) {
    if (localId + stride < l_blockSize) {
        localMem[localId] += localMem[localId + stride];
    }
    stride *= 2;
    item.barrier(access::fence_space::local_space);
}

这种实现方式存在两个主要问题：

数据竞争：当多个工作项同时读取和写入共享内存时，没有适当的同步机制可能导致数据不一致。
规约算法不完整：这种实现方式不能保证所有数据都被正确累加，特别是在工作组大小不是2的幂次方时。

解决方案

开发者提出了修正后的规约算法实现：

int d = 1;
while (d < l_blockSize) {
    item.barrier(access::fence_space::local_space);
    int index = 2 * d * localId;
    if (index < l_blockSize) {
        int pairIndex = index + d;
        if (pairIndex < l_blockSize) {
            localMem[index] += localMem[pairIndex];
        }
    }
    d *= 2;
}

这个修正版本解决了原始实现中的问题：