Citus分布式数据库窗口函数分区查询导致段错误问题分析

2025-05-20 17:57:17作者：毕习沙Eudora

Distributed PostgreSQL as an extension

项目地址：https://gitcode.com/gh_mirrors/ci/citus

问题现象

在Citus 12与PostgreSQL 16环境中，当执行包含窗口函数分区的分布式表查询时，系统会出现段错误(Segmentation Fault)。具体表现为：当查询涉及两个分布式表的JOIN操作，并在窗口函数中使用PARTITION BY子句时，数据库服务进程会异常终止。

触发条件

该问题具有以下特征性触发条件：

查询必须包含窗口函数的PARTITION BY子句
涉及两个分布式表的JOIN操作
查询条件中包含多个ID值过滤
使用PostgreSQL 16版本
表分片数量大于1

技术背景

Citus是一个PostgreSQL扩展，用于构建分布式数据库系统。它将大表水平分片并分布在多个节点上，同时提供标准SQL接口。窗口函数是PostgreSQL中的高级分析功能，允许在结果集的"窗口"上执行计算。

问题根源

通过分析堆栈跟踪和代码调试，发现问题源于PostgreSQL 16引入的varnullingrels机制。该机制用于处理NULL值在外部连接中的传播行为。在Citus的查询计划生成过程中，当构建分布式计划的目标列表时，对于不能下推的窗口函数目标，优化器直接复制了包含非空varnullingrels的Var节点，而没有正确处理这一新属性。

深入分析

在问题查询中，窗口函数引用了左外连接内部表的列，这导致：

PostgreSQL 16为相关Var节点添加了varnullingrels属性
Citus优化器在创建非下推目标时直接复制了该Var节点
后续的等价类处理过程中，由于varnullingrels引用了不存在的relid，导致数组越界访问

解决方案

Citus团队已经修复了这一问题，主要改进包括：

在创建非下推目标时使用makeVar而非copyObject
确保正确处理PostgreSQL 16新增的varnullingrels属性
全面检查其他可能复制Var节点的代码路径

临时规避措施

在修复版本发布前，用户可以考虑以下临时解决方案：

将相关表改为单分片模式
避免在窗口函数PARTITION BY中使用JOIN内部表的列
暂时降级到PostgreSQL 15版本

技术启示

这一案例展示了分布式数据库系统在与PostgreSQL新版本集成时可能面临的挑战。特别是当PostgreSQL核心引入新机制时，扩展需要相应调整其查询处理逻辑。对于数据库开发者而言，密切跟踪PostgreSQL核心的变化并及时适配是确保扩展兼容性的关键。

该修复已合并到Citus主分支并向后移植到Citus 12.1版本，用户可通过升级到包含修复的版本来解决这一问题。

Distributed PostgreSQL as an extension

项目地址：https://gitcode.com/gh_mirrors/ci/citus

登录后查看全文

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

flutter_flutter

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

无需学习 Kubernetes 的容器平台，在 Kubernetes 上构建、部署、组装和管理应用，无需 K8s 专业知识，全流程图形化管理