HeavyDB中GPU与CPU执行SELECT DISTINCT的差异分析

2025-06-27 11:49:12作者：仰钰奇

问题背景

在数据库查询优化过程中，我们经常会使用SELECT DISTINCT语句来获取列中的唯一值。然而，在HeavyDB分布式分析型数据库中，发现了一个有趣的现象：当使用GPU和CPU两种不同的执行设备时，对于包含负号运算的SELECT DISTINCT查询，返回结果的顺序会出现不一致的情况。

通过以下测试案例可以清晰地复现这个问题：

首先创建一个分片表并插入测试数据：

CREATE TABLE t1(c0 integer, SHARD KEY(c0)) WITH (shard_count=28);
INSERT INTO t1(c0) VALUES(1);
INSERT INTO t1(c0) VALUES(2);

当使用CPU执行时：

ALTER SESSION SET EXECUTOR_DEVICE='CPU';
SELECT DISTINCT -(t1.c0) FROM t1;

返回结果为：

EXPR$0
-2
-1

而当切换至GPU执行时：

ALTER SESSION SET EXECUTOR_DEVICE='GPU';
SELECT DISTINCT -(t1.c0) FROM t1;

返回结果变为：

EXPR$0
-1
-2

这个现象揭示了HeavyDB在GPU和CPU执行路径上的一个重要差异：

该问题已在HeavyDB v8.0.1版本中得到修复。修复可能涉及以下方面：

对于需要确保结果一致性的生产环境：

这个案例展示了分布式数据库系统中一个典型的多执行引擎一致性问题。HeavyDB团队通过版本更新解决了这个问题，体现了对查询结果一致性的重视。作为用户，理解不同硬件执行路径可能带来的细微差异，有助于更好地设计查询和解释结果。

登录后查看全文