pg_repack中锁失败导致的递归回调问题分析

2025-07-05 14:35:45作者：余洋婵Anita

问题背景

在pg_repack工具的使用过程中，当尝试对一个表进行重组操作时，如果遇到表锁获取失败的情况，可能会触发一个严重的递归调用问题。这个问题最终会导致栈溢出并产生核心转储文件。

问题现象

当使用特定权限的用户（如POLAR_SUPERUSER）执行pg_repack命令时，如果该用户没有目标表的访问权限，工具会尝试获取表的ACCESS EXCLUSIVE锁。由于权限不足，锁获取失败，随后工具尝试重置lock_timeout参数，但此时事务已经处于中止状态，导致重置操作也失败。

问题根源

问题的核心在于错误处理机制中的递归调用链：

lock_exclusive()函数在锁表失败后会尝试重置lock_timeout
重置操作失败触发错误处理
错误处理调用repack_cleanup_callback()回调函数
回调函数中又再次调用lock_exclusive()
形成无限递归循环，最终导致栈空间耗尽

技术细节分析

在lock_exclusive()函数的实现中，当锁表操作失败后，会执行以下流程：

打印错误信息
清除结果集
设置返回值为false
尝试执行"RESET lock_timeout"命令

如果此时事务已经中止，重置命令会再次失败，触发错误处理机制。错误处理会调用注册的退出回调函数repack_cleanup_callback()，而这个回调函数中又尝试重新获取锁，形成了递归调用链。

解决方案

该问题已在后续版本中通过两个重要修复得到解决：

改进了错误处理机制，避免在清理回调中再次尝试获取锁
优化了事务状态管理，确保在错误情况下不会形成递归调用

经验总结

这个问题提醒我们在设计错误处理机制时需要注意：

清理回调函数应该只执行必要的资源释放操作
避免在错误处理路径中执行可能再次失败的操作
对于关键操作（如表锁获取）应该有明确的失败处理策略
考虑添加递归深度限制作为安全防护措施

最佳实践建议

对于使用pg_repack工具的用户，建议：

确保执行用户具有足够的权限
使用最新版本的pg_repack工具
在执行前检查表锁状态
监控工具执行过程中的资源使用情况

这个问题虽然特定于pg_repack工具，但其反映的错误处理模式在其他数据库工具开发中也值得借鉴。

pg_repack

Reorganize tables in PostgreSQL databases with minimal locks

项目地址：https://gitcode.com/gh_mirrors/pg/pg_repack

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

198

nop-entropy

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

leetcode

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Vue

1.26 K

694