TiKV中Split-Merge操作引发的Panic问题分析与解决方案

2025-05-14 23:10:23作者：胡唯隽

TiKV是一款开源的、分布式的、事务性的键值数据库，支持ACID合规的事务性API。它由Rust编写，采用Raft共识算法，最初为兼容MySQL协议的分布式HTAP数据库TiDB设计。TiKV提供地理复制、水平扩展能力，并实现了类似Google Percolator的强一致分布式事务。其特性包括：自动分片、高性能事务处理、coprocessor框架及与TiDB的无缝协作。现在，TiKV已成为云原生计算基金会的毕业项目，被广泛应用。

项目地址：https://gitcode.com/gh_mirrors/tik/tikv

问题背景

在分布式KV存储引擎TiKV中，Split(分裂)和Merge(合并)是两种核心的区域(Region)管理操作。Split操作将一个大的Region分成多个小Region，而Merge操作则将相邻的小Region合并成大Region。这两种操作在正常情况下由PD(Placement Driver)调度，通常会保持一定的时间间隔。

问题现象

在特定测试场景下，当Region被Split后立即执行Merge操作时，TiKV节点出现了Panic。错误日志显示"[region 15822] 15824 status Some((15824, true)) is not expected"，这表明系统在处理Snapshot时遇到了预期之外的状态。

根本原因分析

通过深入分析日志和代码，我们发现这是一个典型的竞态条件问题，具体发生在以下操作序列中：

Merge通知阶段：节点A的Region 12695收到将被合并到Region 15822的通知，此时Region 15822被加入pending_merge_targets列表，这使其绕过了Snapshot的范围检查。
Peer创建阶段：由于收到Raft消息，节点A为Region 15822创建了新的Peer。
Split操作阶段：Region 12695执行了Split操作，同时标记Region 15822的is_splitting状态为true。
Snapshot接收阶段：节点A接收到Region 15822在更高epoch(247)的Snapshot，虽然通过了范围检查，但无法通过is_splitting状态的断言检查，导致Panic。

技术细节

问题的核心在于TiKV对Split和Merge操作的并发处理逻辑存在缺陷：

状态管理冲突：当Region处于is_splitting状态时，理论上不应该接收Snapshot，但由于Merge操作的特殊处理路径(pending_merge_targets)，这个检查被绕过了。
操作时序敏感：在正常生产环境中，PD会确保Split和Merge操作之间有足够的时间间隔(默认1小时)，但在测试环境中可能连续执行这两种操作，暴露了这个问题。
断言过于严格：代码中对Region状态的断言检查没有考虑到这种特殊的操作序列场景。