YugabyteDB中布尔类型索引优化问题解析

2025-05-25 10:55:23作者：宣聪麟

问题背景

在YugabyteDB的YSQL兼容层中，开发人员发现了一个关于布尔类型索引使用的优化问题。当表中存在布尔类型的索引列时，查询优化器在某些情况下无法正确识别并利用该索引，导致执行计划选择了低效的全表扫描而非索引扫描。

问题现象

以一个简单的表结构为例：

CREATE TABLE tbl (b BOOLEAN, PRIMARY KEY(b ASC));

执行以下查询时：

EXPLAIN SELECT b FROM tbl WHERE b;

预期应该使用索引扫描，但实际却执行了全表扫描：

                       QUERY PLAN                       
--------------------------------------------------------
 Seq Scan on tbl  (cost=0.00..100.00 rows=1000 width=1)
   Storage Filter: b
(2 rows)

技术分析

根本原因

问题的根源在于YugabyteDB的查询优化器代码中对布尔类型操作符家族(Opfamily)的判断不完整。在PostgreSQL兼容层中，优化器通过IsBooleanOpfamily宏来判断一个操作符家族是否属于布尔类型：

#define IsBooleanOpfamily(opfamily) \
    ((opfamily) == BOOL_BTREE_FAM_OID || (opfamily) == BOOL_HASH_FAM_OID)

然而，YugabyteDB特有的LSM(Log-Structured Merge-Tree)存储引擎使用的布尔操作符家族BOOL_LSM_FAM_OID没有被包含在这个判断中。这导致优化器无法识别基于LSM存储的布尔索引，从而无法生成最优的执行计划。

影响范围

这个问题不仅影响简单的索引扫描场景，还会影响分区表的裁剪优化。例如：

CREATE TABLE boolpart (a bool) PARTITION BY LIST (a);
CREATE TABLE boolpart_default PARTITION OF boolpart DEFAULT;
CREATE TABLE boolpart_t PARTITION OF boolpart FOR VALUES IN ('true');
CREATE TABLE boolpart_f PARTITION OF boolpart FOR VALUES IN ('false');

在修复前，查询SELECT * FROM boolpart WHERE a = false会扫描所有分区，而实际上只需要扫描boolpart_f分区即可。

解决方案

修复方案很简单，只需要将BOOL_LSM_FAM_OID加入到布尔操作符家族的判断中：

#define IsBooleanOpfamily(opfamily) \
    ((opfamily) == BOOL_BTREE_FAM_OID || \
     (opfamily) == BOOL_HASH_FAM_OID || \
     (opfamily) == BOOL_LSM_FAM_OID)

修复后，优化器能够正确识别布尔索引，生成更优的执行计划：

                             QUERY PLAN                             
--------------------------------------------------------------------
 Index Scan using tbl_pkey on tbl  (cost=0.00..4.11 rows=1 width=1)
   Index Cond: (b = true)
(2 rows)