Pgbouncer 1.23.0版本中的put_in_order致命错误分析与解决方案

2025-06-25 13:27:32作者：郁楠烈Hubert

lightweight connection pooler for PostgreSQL

项目地址：https://gitcode.com/gh_mirrors/pg/pgbouncer

问题背景

Pgbouncer作为PostgreSQL数据库连接池工具，在1.23.0版本发布后，用户报告了一个严重的稳定性问题。该问题会导致Pgbouncer服务崩溃，错误信息为"FATAL @src/objects.c:420 in function put_in_order(): put_in_order: found existing elem"。这一问题影响了多个生产环境，促使开发团队迅速响应并发布了修复版本。

问题现象

当用户从1.22.1版本升级到1.23.0版本后，Pgbouncer服务在运行一段时间后（从1.5小时到6小时不等）会突然崩溃。崩溃前通常没有任何异常征兆，服务日志中仅记录正常的统计信息，随后突然出现致命错误并终止服务。

技术分析

根本原因

该问题的核心在于Pgbouncer内部对象管理机制中的put_in_order函数实现存在缺陷。具体来说：

对象比较逻辑问题：在比较两个连接池对象时，代码仅比较了对象指针而非对象名称，导致当存在多个具有相同名称但不同指针的凭证对象时，比较逻辑失效。
双重凭证对象：在某些特定配置下（特别是使用auth_query时），系统可能创建两个具有相同名称但不同指针的PgCredentials对象。一个来自全局用户树，另一个是强制用户凭证。
列表排序冲突：当janitor线程执行do_full_maint维护任务时，会尝试将这些实质上相同但指针不同的对象放入有序列表中，触发断言失败。

触发条件

该问题在以下配置条件下更容易出现：

使用auth_query进行用户认证
配置了min_pool_size参数
使用通配符(*)数据库配置
设置了auth_user参数

解决方案

临时解决方案

在官方修复版本发布前，用户可以采取以下临时措施：

回退到1.22.1或更早版本
确保auth_user在auth_file中有明确定义
避免使用min_pool_size参数

官方修复

开发团队在1.23.1版本中彻底解决了该问题，主要修改包括：

修改get_pool函数，改为基于名称而非指针比较凭证对象
更新cmp_pool比较函数，确保正确比较数据库和凭证名称
移除了不必要的PgCredentials::pool_list引用

配置建议

为避免类似问题，建议用户遵循以下最佳实践：

对于关键生产环境，新版本发布后先在测试环境验证
确保auth_file中包含所有必要的用户凭证
合理设置连接池参数，避免过度配置
监控Pgbouncer日志，及时发现异常

总结

Pgbouncer 1.23.0版本的这一稳定性问题展示了数据库中间件开发中的复杂性，特别是在处理对象管理和并发访问时。开发团队的快速响应和修复体现了开源社区的优势。用户应及时升级到1.23.1或更高版本，以获得更稳定的连接池服务体验。

lightweight connection pooler for PostgreSQL

项目地址：https://gitcode.com/gh_mirrors/pg/pgbouncer

登录后查看全文

项目优选

收起

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

deepin linux kernel

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

flutter_flutter

昇腾LLM分布式训练框架

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统