Spring Data JPA 中 PostgreSQL 原生查询的 GROUP BY 陷阱解析

2025-06-26 04:29:52作者：齐冠琰

问题现象

在使用 Spring Data JPA 进行 PostgreSQL 原生查询时，开发人员可能会遇到一个特殊的 SQL 语法错误："column X must appear in the GROUP BY clause or be used in an aggregate function"。这个错误通常出现在包含复杂 GROUP BY 表达式的查询中，特别是当查询使用了函数计算和列别名时。

问题复现

让我们通过一个典型场景来说明这个问题。假设我们有一个 revenue 表，需要按天统计收入数据，同时考虑时区偏移量。开发人员可能会编写如下 JPA 原生查询：

@Query(value = """
        SELECT site_id, date_trunc('day', hour - (INTERVAL '1 hour') * :offset) AS hour, name,
               SUM(line_totals) AS line_totals, SUM(sum_quantity) AS sum_quantity
        FROM service.revenue
        WHERE site_id = :siteId AND hour >= :from AND hour < :until AND name IN (:names)
        GROUP BY site_id, date_trunc('day', hour - (INTERVAL '1 hour') * :offset), name
        ORDER BY 2 ASC, 3 ASC;
        """, nativeQuery = true)
Stream<MyValue> findBySiteIdAndHourBetweenAndNameInGroupedByDayWithOffset(...);

错误分析

当执行上述查询时，PostgreSQL 会抛出错误，指出 hour 列必须出现在 GROUP BY 子句中或用于聚合函数。这看起来很奇怪，因为：

查询中确实包含了 GROUP BY 子句
GROUP BY 中已经包含了 date_trunc 函数表达式
同样的查询直接在 psql 命令行中执行却能正常工作

根本原因

经过深入分析，这个问题实际上与 PostgreSQL JDBC 驱动程序的预处理语句处理方式有关。当 JPA/Hibernate 通过 JDBC 执行原生查询时：

查询会被转换为预处理语句
参数占位符会被替换
在这个过程中，驱动可能对复杂的 GROUP BY 表达式解析不够完善
导致 PostgreSQL 服务器收到的最终查询与预期不符

解决方案

目前有以下几种可行的解决方案：

方案一：使用列位置引用

GROUP BY site_id, 2, name

通过使用输出列的序号(2 表示第二个输出列)来引用复杂的表达式，可以避免驱动程序的解析问题。

方案二：使用 CTE 或子查询

WITH daily_data AS (
    SELECT site_id, date_trunc('day', hour - (INTERVAL '1 hour') * :offset) AS hour, name,
           line_totals, sum_quantity
    FROM service.revenue
    WHERE site_id = :siteId AND hour >= :from AND hour < :until AND name IN (:names)
)
SELECT site_id, hour, name, 
       SUM(line_totals) AS line_totals, SUM(sum_quantity) AS sum_quantity
FROM daily_data
GROUP BY site_id, hour, name
ORDER BY hour ASC, name ASC;