OpenLibrary数据库空间不足问题分析与解决方案

2025-06-06 02:05:26作者：翟萌耘Ralph

问题背景

OpenLibrary生产环境中的两台数据库服务器ol-db1和ol-db2近期出现了存储空间严重不足的情况，可用空间已降至40GB以下（总容量为1TB）。这种情况如果持续恶化，可能导致数据库服务不可用，影响整个OpenLibrary平台的正常运行。

问题分析

通过检查发现，PostgreSQL数据库中多个核心表存在大量"死元组"(dead tuples)。死元组是指那些已被删除或更新但尚未被清理的数据记录，它们会占用存储空间但不再被使用。特别是以下几个表情况较为严重：

store_index表：4300万死元组
store表：150万死元组
edition_str表：570万死元组
thing表：280万死元组
work_str表：100万死元组

这些死元组堆积的主要原因是PostgreSQL的自动清理(auto-vacuum)机制未能及时处理这些表。默认情况下，PostgreSQL会在表中有足够多的死元组时触发自动清理，但对于频繁更新的表，默认阈值可能不够敏感。

解决方案

立即措施

手动执行VACUUM ANALYZE：对问题严重的表执行了手动清理操作，回收内部空间：

VACUUM ANALYZE store_index;
VACUUM ANALYZE store;
VACUUM ANALYZE edition_str;
VACUUM ANALYZE data;
VACUUM ANALYZE thing;
VACUUM ANALYZE work_str;

调整自动清理参数：针对store_index表调整了自动清理的触发阈值，使其更频繁地进行清理：

ALTER TABLE store_index SET (
  autovacuum_vacuum_threshold = 500,
  autovacuum_vacuum_scale_factor = 0.01,
  autovacuum_analyze_threshold = 500,
  autovacuum_analyze_scale_factor = 0.005
);

扩容存储空间：为ol-db1和ol-db2服务器增加了200GB的存储空间，暂时缓解了空间压力。

长期解决方案

数据库升级计划：计划引入第三台数据库服务器ol-db3，实施PostgreSQL版本升级，改善整体数据库管理能力。
监控优化：建立更完善的数据库监控机制，特别是对死元组增长和存储空间使用的监控。
定期维护：制定定期的手动VACUUM计划，特别是对那些更新频繁的大型表。

技术细节说明

VACUUM ANALYZE：该命令会清理表中的死元组并更新统计信息，但不会将空间返还给操作系统（需要VACUUM FULL才能做到，但会锁表影响生产环境）。
自动清理参数：
- autovacuum_vacuum_threshold：触发VACUUM的死元组绝对数量阈值
- autovacuum_vacuum_scale_factor：触发VACUUM的死元组相对于表大小的比例
- 类似的analyze参数控制统计信息更新的频率