TiKV集群中处理下线节点时的地址解析问题分析

2025-05-14 16:48:54作者：韦蓉瑛

TiKV是一款开源的、分布式的、事务性的键值数据库，支持ACID合规的事务性API。它由Rust编写，采用Raft共识算法，最初为兼容MySQL协议的分布式HTAP数据库TiDB设计。TiKV提供地理复制、水平扩展能力，并实现了类似Google Percolator的强一致分布式事务。其特性包括：自动分片、高性能事务处理、coprocessor框架及与TiDB的无缝协作。现在，TiKV已成为云原生计算基金会的毕业项目，被广泛应用。

项目地址：https://gitcode.com/gh_mirrors/tik/tikv

问题背景

在TiKV分布式存储系统中，当节点下线后，如果处理不当可能会导致集群出现异常日志输出。本文分析了一个典型场景：当TiKV节点被下线并标记为tombstone状态后，其他节点尝试与该节点通信时产生的错误循环问题。

问题现象

运维人员在对TiKV集群进行维护时，下线了一个TiKV节点并执行了remove-tombstone操作。随后，集群中其他TiKV节点开始持续输出以下错误日志：

PD客户端更新失败警告
请求失败错误，提示"invalid store ID 6365, not found"
重连失败错误

这些错误日志以高频率持续输出，形成了明显的错误循环。

技术原理分析

在TiKV的分布式架构中，节点间通过Raft协议进行通信。每个TiKV节点都会维护与其他节点的连接，这些连接信息会定期从PD(Placement Driver)服务获取更新。

当节点6365被下线并标记为tombstone后，PD会将该节点从活跃节点列表中移除。此时，如果其他节点仍尝试与6365通信，会经历以下流程：

Raft客户端尝试解析节点6365的地址
向PD服务发起查询请求
PD返回错误"invalid store ID 6365, not found"
TiKV的resolve模块未能正确处理此错误
Raft客户端未收到明确的tombstone状态指示
客户端继续尝试重连，形成循环

问题根源

问题的核心在于错误处理逻辑不够完善。当前实现中，当PD返回"store not found"错误时，resolve模块只是简单地传递了这个错误，而没有将其转换为明确的StoreTombstone错误类型。

在Raft客户端的处理逻辑中，它需要明确的错误类型来判断是否应该停止重试。对于普通的错误，客户端会继续尝试；而对于明确的tombstone状态，客户端则会停止重试循环。

解决方案

正确的处理方式应该是：

在resolve模块中，当收到PD的"store not found"错误时，应将其转换为Error::StoreTombstone(store_id)错误类型
Raft客户端收到此错误后，可以明确知道该节点已下线
客户端可以停止对该节点的重试循环
系统日志中将不再出现持续的错误输出

运维建议

对于使用TiKV的运维人员，在处理节点下线时应注意：

确保按照标准流程下线节点
监控集群日志，及时发现类似错误循环
对于已修复的版本，及时进行升级
在维护窗口期执行下线操作，减少对业务的影响

总结

TiKV作为分布式存储系统，节点下线是常见的运维操作。系统需要完善处理各种边界情况，特别是错误状态的传递和处理。通过改进错误类型的转换机制，可以避免不必要的重试循环，提高系统的稳定性和可维护性。

tikv

项目地址：https://gitcode.com/gh_mirrors/tik/tikv

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

leetcode

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解