ParadeDB v0.15.8版本发布：PostgreSQL全文搜索性能优化解析

2025-06-08 08:25:10作者：滑思眉Philip

ParadeDB是一个基于PostgreSQL的全文搜索引擎扩展项目，它通过集成Tantivy（Rust编写的高性能全文搜索引擎）来增强PostgreSQL的原生搜索能力。该项目旨在为PostgreSQL用户提供接近专业搜索引擎性能的全文检索功能，同时保持与PostgreSQL生态系统的无缝集成。

核心性能优化

本次v0.15.8版本带来了多项重要的性能优化改进，主要集中在索引合并策略和查询执行效率方面：

智能段合并策略优化：
- 新增了paradedb.segment_merge_scale_factor配置参数，允许用户调整段合并的规模因子（默认值为5）
- 改进了NPlusOneMergePolicy策略，现在能更均衡地根据文档数量(num_docs)来平衡段合并
- 每次合并操作只执行一次合并，减少了不必要的合并开销
查询执行优化：
- 实现了IS NOT NULL条件谓词的下推至Tantivy引擎
- 修复了"Top N"查询在非并行自定义扫描场景下的工作问题
- 当查询不返回任何结果时，不再使用FastFields优化，减少不必要的计算
存储层改进：
- 将页面回收(page recycling)操作移至前台执行，提高系统响应速度
- 在MvccDirectory中缓存FileEntry对象，减少文件系统操作
- 基准测试前自动执行VACUUM操作，确保测试环境一致性

在底层实现上，本次更新有几个值得关注的技术点：

合并策略算法改进：新的合并策略采用了更智能的段选择算法，通过scale factor参数，用户可以控制合并的激进程度。值越大，合并后的段越大，适合写入密集型场景；值越小，合并更频繁，适合查询密集型场景。
谓词下推优化：将IS NOT NULL这样的过滤条件下推到搜索引擎层执行，避免了在PostgreSQL层过滤大量数据，显著提高了包含此类条件的查询性能。
资源管理优化：通过将页面回收操作移至前台并优化文件entry缓存，减少了I/O等待时间，使系统整体响应更加平滑。