Lucene 10.2.0发布：搜索性能大幅提升与关键特性解析

2025-06-16 12:07:04作者：农烁颖Land

Apache Lucene open-source search software

项目地址：https://gitcode.com/gh_mirrors/lu/lucene

Apache Lucene作为一款高性能、全功能的文本搜索引擎库，在10.2.0版本中带来了显著的性能改进和功能增强。Lucene的核心能力包括高效的索引构建、快速查询处理以及灵活的搜索功能，广泛应用于各类搜索场景中。

搜索性能的显著提升

Lucene 10.2.0版本最引人注目的改进是其搜索性能的大幅提升，这主要得益于以下几个关键优化：

BKD树文档ID存储格式优化：新版改进了BKD树中文档ID的存储格式，使得解码速度更快。BKD树是Lucene用于高效处理多维点数据（如地理位置、数值范围等）的重要数据结构。
向量化处理增强：在PointRangeQuery和非计分BooleanQuery的处理中增加了更多向量化操作。向量化处理能够充分利用现代CPU的SIMD指令集，显著提高批量数据处理效率。
倒排列表密集块编码优化：将倒排列表中密集的文档ID块编码方式从FOR-delta改为位集合(bit set)，不仅提高了处理速度，还节省了存储空间。
密集合取子句的位运算合并：对于密集的合取条件(AND)，现在使用位运算进行合并，特别是对编码为位集合的倒排列表块效果更为明显。
ACORN-1算法应用：在预过滤向量搜索中实现了ACORN-1算法，这是一种高效的近似最近邻搜索算法，特别适合大规模向量搜索场景。

根据基准测试数据，与10.1.0版本相比，不同查询类型的性能提升如下：

词项查询的析取(OR)：提升77%至4倍
词项查询的合取(AND)：提升38%至5倍
带过滤的析取查询：提升2.5至4倍
带过滤的PointRangeQuery：提升3.5倍
预过滤向量搜索的Top-100查询：提升3.5倍

运行时行为变更

TieredMergePolicy的默认最小段大小(floor segment size)从2MB提高到了16MB。这一变更对于频繁刷新的应用会产生以下影响：

索引速度可能略有下降
每个索引的段数量预计减少约10个
查询性能将受益，特别是对于多词项查询、点查询和向量搜索等高段开销的查询类型

新增功能特性

TopDocs#rrf方法：新增了基于互惠排名融合(Reciprocal Rank Fusion)的TopDocs合并功能，可以更有效地组合多个搜索结果集。
SeededKnnVectorQuery：这是对KnnVectorQuery的优化扩展，允许通过种子查询(seed Query)选择更好的向量搜索入口点，提高搜索质量和效率。

其他重要改进

正则表达式查询增强：RegexpQuery现在支持Unicode大小写不敏感的字符和范围匹配，增强了国际化支持。
Java 24向量API支持：充分利用最新Java版本的向量API，进一步提升性能。
自动机和正则表达式优化：对底层自动机实现和正则表达式处理进行了效率改进。
HNSW图合并优化：改进了HNSW(分层可导航小世界)图的合并算法，在基准测试中实现了25%的索引速度提升。
合取查询优化：当配置了索引排序时，合取查询现在可以跳过处理长匹配文档序列，提高查询效率。
BKD树合并内存优化：减少了BKD树合并过程中的堆内存使用量。

技术影响与应用建议

Lucene 10.2.0的这些改进对于构建高性能搜索系统具有重要意义。开发者可以考虑以下应用场景：

大规模文档检索系统：性能提升特别有利于处理海量文档的搜索场景，如企业搜索、内容平台等。
向量搜索应用：ACORN-1算法和SeededKnnVectorQuery的引入，使得基于向量的相似性搜索更加高效，适合推荐系统、图像搜索等场景。
复杂查询场景：对于包含多个条件的复杂查询，特别是AND/OR组合查询，性能提升明显。

升级建议：对于性能敏感的应用，特别是大量使用多条件查询或向量搜索的场景，建议评估升级到10.2.0版本。但需要注意TieredMergePolicy默认行为的变更可能对现有系统的影响，必要时可调整相关参数。

Apache Lucene open-source search software

项目地址：https://gitcode.com/gh_mirrors/lu/lucene

登录后查看全文

项目优选

收起

deepin linux kernel

Ascend Extension for PyTorch

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件，通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求，让密码技术应用更简单，同时探索后量子等先进算法创新实践，构建密码前沿技术底座！

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

昇腾LLM分布式训练框架

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

flutter_flutter