CrateDB升级至Lucene 10的技术解析

2025-06-15 18:24:21作者：郦嵘贵Just

CrateDB is a distributed and scalable SQL database for storing and analyzing massive amounts of data in near real-time, even with complex queries. It is PostgreSQL-compatible, and based on Lucene.

项目地址：https://gitcode.com/gh_mirrors/cr/crate

CrateDB作为一款分布式SQL数据库，近期完成了对其底层搜索引擎Lucene的版本升级工作，从旧版本迁移至Lucene 10.1。这一技术升级为系统带来了多项改进和优化，值得我们深入探讨。

核心升级内容

本次升级主要包含三个关键方面的改进：

基础依赖升级：将Lucene核心依赖从旧版本升级至10.1版本，这是Apache Lucene项目的最新稳定版本之一。
稀疏索引支持：通过Lucene 10原生支持的稀疏索引特性，移除了项目中自定义的DocValuesFormat实现，简化了代码结构并提高了兼容性。
正则表达式处理改进：针对Lucene 10中已弃用的正则表达式补集运算符，调整了相关处理逻辑，确保功能兼容性。

技术细节解析

在升级过程中，开发团队发现并解决了一些关键技术问题：

ShuffleForcedMergePolicy问题：测试过程中发现ShuffleForcedMergePolicyTests在特定种子值下失败。经排查，这是由于setMergeInfo方法未被正确调用导致的。这个问题与Lucene 10的内部变更有关，特别是在合并策略的实现机制上有所调整。

性能考量：虽然官方issue中没有提供详细的性能基准测试数据，但根据Lucene 10的官方发布说明，新版本在索引压缩、查询性能和内存使用等方面都有所优化。特别是对于CrateDB这样的分布式数据库，Lucene 10改进的并发处理能力可能会带来显著的性能提升。