OpenSearch布尔查询性能回归分析与解决方案

2025-05-22 03:39:41作者：姚月梅Lane

问题背景

在OpenSearch 3.0版本中，某些特定类型的布尔查询出现了明显的性能退化现象。具体表现为当查询包含布尔连接条件时，特别是当使用BitSetConjunctionDISI包装ImpactsDISI的情况下，查询执行时间显著增加。这种退化主要出现在以下场景中：

当主迭代器（匹配较少文档）是文本字段上的match查询时
当次迭代器（匹配较多文档）是数值范围查询产生的BitSetIterator时

性能对比数据

通过对http_logs数据集的两个典型查询进行测试，我们获得了以下性能对比数据：

查询1：文本匹配+时间范围过滤

"bool": {
  "must": {"match": {"request": "js"}},
  "filter": {
      "range": {
      "@timestamp": {
        "gte": "1998-06-10T00:00:00Z",
        "lt": "1998-06-13T00:00:00Z"
      }
    }
  }
}

性能对比（毫秒）：

P25：从8.41增加到33.72（+301%）
P50：从11.83增加到39.15（+231%）
P75：从16.53增加到41.18（+149%）

查询2：多值匹配+时间范围过滤

"bool": {
    "must": {"terms": {
          "request.raw": [...]
        }},
    "filter": {
        "range": {
        "@timestamp": {
          "gte": "1998-06-10T00:00:00Z",
          "lt": "1998-06-13T00:00:00Z"
        }
      }
    }
  }
}

性能对比（毫秒）：

P25：从21.51增加到32.64（+52%）
P50：从23.07增加到33.66（+48%）
P75：从23.98增加到34.35（+43%）

问题根源分析

通过火焰图分析和代码追踪，我们发现性能退化的根本原因在于Lucene 10.0中BooleanScorerSupplier.requiredBulkScorer()方法的leadCost计算逻辑发生了变化。

在Lucene 9.x版本中，leadCost取的是MUST和FILTER子句中所有ScorerSupplier cost的最小值。而在Lucene 10.0中，计算逻辑变为：

long leadCost = subs.get(Occur.MUST).stream().mapToLong(ScorerSupplier::cost).min().orElse(Long.MAX_VALUE);
leadCost = subs.get(Occur.FILTER).stream().mapToLong(ScorerSupplier::cost).min().orElse(leadCost);

这种计算方式会导致当FILTER子句的最小cost大于MUST子句的最小cost时，错误地使用FILTER子句的cost作为leadCost。这会导致系统选择性能较差的执行路径，特别是会触发PointRangeQuery的BKD树遍历操作，而不是使用更高效的DocValues路径。