Proton项目中版本化键值存储的单分片优化方案

2025-07-08 02:05:59作者：庞队千Virginia

在分布式数据库系统Proton中，版本化键值存储(versioned_kv)是一个重要特性。本文将深入分析当前实现中存在的性能优化空间，并提出针对单分片场景的优化方案。

背景与现状

Proton通过CREATE STREAM语句创建版本化键值存储时，默认会为数据流添加分片逻辑。当前实现中，即使只有一个分片，系统仍然会使用weak_hash32(id)作为分片表达式。这种设计虽然保证了多分片场景下的数据分布均匀性，但在单分片场景下却带来了不必要的计算开销。

问题分析

在单分片场景下，分片计算实际上是一个冗余操作。以示例中的kv表为例：

CREATE STREAM kv(id int64, value float) primary key id settings mode='versioned_kv';

系统实际生成的底层结构包含分片表达式weak_hash32(id)，即使只有一个分片。这种设计会导致：

写入时需要额外计算哈希值
查询时可能需要处理哈希计算结果
增加了存储引擎的复杂度

优化方案

针对单分片场景，我们可以完全跳过分片计算步骤。具体优化包括：

在SQL解析阶段识别分片数为1的情况
自动移除分片表达式
保持其他特性不变(如分区、主键等)

优化后的表结构将简化为：

CREATE STREAM default.kv
(
  `id` int64,
  `value` float32,
  `_tp_time` datetime64(3, 'UTC') DEFAULT now64(3, 'UTC') CODEC(DoubleDelta, LZ4),
  INDEX _tp_time_index _tp_time TYPE minmax GRANULARITY 2
)
ENGINE = Stream(1, 1)
PARTITION BY to_YYYYMMDD(_tp_time)
PRIMARY KEY id
ORDER BY id
SETTINGS mode = 'versioned_kv', index_granularity = 8192