Pika数据库内存占用问题分析与优化实践

2025-06-04 14:12:21作者：苗圣禹Peter

内存占用现象分析

在Pika数据库4.0版本的实际使用过程中，开发团队发现了一个值得关注的内存使用现象：当单实例持续执行hset命令压测时，在2-4万QPS的压力下，运行约1小时后内存占用会达到100%。通过valgrind工具检测，发现存在内存分配未释放的情况。

进一步测试表明，当block_size参数设置较大时(如64G)，会显著增加内存占用。同时，info命令的内存统计功能未能准确反映block_size相关的内存使用情况，这给问题排查带来了困难。

开发团队通过系统性的测试和分析，逐步定位到问题根源：

pagecache影响：初步发现的大部分内存占用实际上来自于系统的pagecache，这部分内存可以通过sudo echo 3 >> /proc/sys/vm/drop_caches命令释放。
SWAP空间干扰：测试环境开启了SWAP空间，这会影响内存使用的准确评估，生产环境建议关闭SWAP以获得更准确的内存使用情况。
RocksDB配置因素：深入分析发现，RocksDB的SST文件数量和max files设置对内存使用有直接影响，需要确保max files设置小于实际SST文件数量。

基于以上分析，团队提出了针对性的优化方案：

关键配置调整：
- 设置cache-index-and-filter-blocks: yes，使RocksDB将index和filter数据放入block-cache
- 启用LRU淘汰机制，当block-cache不足时自动淘汰旧数据
- 配置pin_l0_filter_and_index_blocks_in_cache = yes
- 使用共享block-cache模式(share-block-cache: true)
测试验证：
- 使用unstable分支编译版本
- 配置6个db实例，128M block-cache
- 设置max-cache-file=5000
- 写入3k长度的value进行压力测试

测试结果显示，在写入1.6T数据后，内存使用基本保持稳定。虽然tablereader的内存占用曲线仍呈现缓慢增长趋势，但增长幅度已经处于可控范围内。

基于此次问题的分析和解决经验，我们总结出以下Pika数据库内存优化的最佳实践：

生产环境配置：
- 推荐关闭SWAP空间
- 合理设置block_size参数，避免过大值
- 定期监控和清理pagecache
RocksDB优化：
- 启用cache-index-and-filter-blocks
- 根据数据规模合理设置block-cache大小
- 监控SST文件数量并相应调整max files参数
监控与维护：
- 完善info命令的内存统计功能，确保包含block_size相关内存
- 建立长期的内存使用监控机制
- 定期进行压力测试验证内存稳定性