CrateDB中字符串列存储压缩优化的探索与实践

2025-06-15 09:41:44作者：虞亚竹Luna

CrateDB is a distributed and scalable SQL database for storing and analyzing massive amounts of data in near real-time, even with complex queries. It is PostgreSQL-compatible, and based on Lucene.

项目地址：https://gitcode.com/gh_mirrors/cr/crate

背景与问题分析

在CrateDB的存储引擎实现中，团队长期维护着一个Lucene90DocValuesFormat的分支版本，该版本移除了术语字典(terms dictionary)的压缩功能。这一修改带来了显著的性能提升，特别是在处理高基数字符串列值的流式读取场景下。然而，这种定制化分支也带来了维护成本——无法自动获取Lucene主线的性能改进和新功能（如Lucene 10中引入的稀疏索引特性）。

性能测试表明，在select/hash_join基准测试中（涉及两个表通过字符串列进行连接操作），使用主线的压缩格式会导致严重的性能下降。特别当该字符串列被定义为主键时（意味着值唯一性），对术语字典的访问呈现完全随机模式，这对基于压缩块存储的数据结构极为不利——每次访问都可能命中不同的压缩块，使得解压缩开销无法分摊。

解决方案探索

团队尝试了多种技术方案来优化这一场景：

预取优化：在BinaryColumnReference中实现prefetch方法，尝试按术语字典顺序批量加载1024个文档ID的值。虽然相比基线有所改善，但在大数据集下仍比分支版本慢约两倍，因为随机分布的文档ID仍会命中不同的压缩块。
混合存储策略：考虑仅对主键列使用分支格式，其他字符串列回归主线格式。但这样会牺牲主键字符串列的稀疏索引功能。
索引排序优化：实验性地对主键列实施索引排序，在小数据集场景表现优异，但在大规模流式处理时反而造成性能下降。测试数据显示：
- 小数据集查询延迟降低128%
- 但百万级数据查询延迟反而增加81.73%
存储字段替代方案：尝试从存储字段而非排序集合文档值中获取主键值。虽然存储字段在顺序访问时可能有优势，但实测性能反而下降约5倍。

技术决策与最终方案

经过多轮验证，团队确定了最优技术路线：

采用BinaryDocValues：相比SortedSetDocValues，BinaryDocValues在大规模顺序访问场景下展现出明显优势：
- 在百万级数据查询中性能提升52.21%
- 内存分配率从1570.07MB/s提升至2552.79MB/s
- 显著减少GC压力（Young GC次数减少，平均耗时降低）
存储空间权衡：虽然BinaryDocValues方案会使字段数据增长21%，但术语字典大小仅增加5.28%，总体存储空间增加约2.54%，在可接受范围内。
保留定制化分支：鉴于实际业务场景中大量存在需要流式读取字符串数据的负载，最终决定暂时保留去除术语字典压缩的分支版本，同时将BinaryDocValues作为未来演进方向。