Citus分布式数据库升级过程中的维护守护进程断言失败问题分析

2025-05-20 16:52:38作者：宣海椒Queenly

在PostgreSQL扩展Citus的版本升级过程中，维护守护进程(CitusMaintenanceDaemon)可能会遇到断言失败(Assertion failure)的问题。这种情况主要发生在从较旧版本(如v10.2.0)升级到新版本时，特别是在PostgreSQL 14环境中。

问题背景

Citus维护守护进程负责多项后台任务，其中包括分布式事务的恢复处理。当系统从旧版本升级到新版本时，守护进程在尝试恢复两阶段提交(2PC)事务时可能会触发断言失败。核心错误发生在getmissingattr函数中，这表明在访问元组属性时出现了问题。

该问题可以通过两种方式重现：

通过回归测试：在PostgreSQL 14环境下运行特定升级测试，使用命令make -C src/test/regress/ check-citus-upgrade-local citus-old-version=v10.2.0
手动重现步骤：
- 安装Citus 10.2.0版本并创建测试集群
- 创建分布式表并插入数据
- 升级到主分支代码
- 重新启用事务恢复功能
- 执行简单查询触发维护守护进程崩溃

问题的核心在于版本兼容性检查和事务恢复机制的交互：

针对此问题，开发团队采取了以下修复措施：

对于使用Citus的用户，在进行版本升级时应注意：

Citus维护守护进程在升级过程中的断言失败问题揭示了分布式系统版本兼容性的重要性。通过深入分析事务恢复机制与版本检查的交互，开发团队不仅修复了当前问题，还增强了系统的健壮性。这提醒我们在进行分布式数据库升级时需要全面考虑各个组件的版本兼容性和交互逻辑。

登录后查看全文