Kvrocks项目中主从切换导致的潜在死锁问题分析

2025-06-18 23:24:13作者：舒璇辛Bertina

kvrocks

项目地址：https://gitcode.com/gh_mirrors/kv/kvrocks

问题背景

在Kvrocks这个高性能键值存储系统中，我们发现了一个潜在的死锁问题。当系统频繁切换不同的主节点(master)时，可能会导致工作线程完全卡死，无法继续处理请求。这个问题涉及到线程同步、锁获取顺序等并发编程中的核心概念。

问题现象

通过gdb调试工具获取的线程堆栈显示，系统出现了典型的死锁情况：

一个工作线程(Thread 8)正在等待获取WorkConcurrencyGuard的共享锁
另一个工作线程(Thread 10)正在执行ReplicationThread::Stop操作
ReplicationThread::Stop操作需要等待WorkExclusivityGuard锁
而WorkExclusivityGuard锁可能被等待共享锁的线程持有

死锁形成机制

这种死锁属于典型的"资源循环等待"死锁类型，具体形成路径如下：

工作线程A获取了WorkExclusivityGuard锁(独占锁)
工作线程B尝试获取WorkConcurrencyGuard锁(共享锁)，被阻塞
工作线程A在执行过程中需要停止复制线程，调用ReplicationThread::Stop
ReplicationThread::Stop内部需要获取WorkExclusivityGuard锁
由于该锁已被工作线程A持有，线程A被阻塞在自己持有的锁上

技术原理分析

在Kvrocks的线程模型中：

WorkConcurrencyGuard使用共享锁(std::shared_mutex)，允许多个线程同时读取
WorkExclusivityGuard使用独占锁，同一时间只允许一个线程访问
复制线程管理涉及主从切换等关键操作，需要保证线程安全

问题根源在于锁的获取顺序没有统一规范，导致不同线程可能以相反的顺序获取锁，从而形成死锁。

解决方案

要解决这个问题，可以从以下几个方面考虑：

锁获取顺序标准化：为所有需要同时获取多个锁的操作定义统一的锁获取顺序
锁粒度调整：评估是否可以减小锁的粒度，减少锁的持有时间
非阻塞设计：考虑使用try_lock等非阻塞方式获取锁，配合超时机制
锁层级设计：实现锁的层级关系，确保不会出现循环等待

最佳实践建议

在类似的高并发系统设计中，为避免死锁问题，建议：

尽量减少锁的嵌套使用
为锁的使用建立明确的文档规范
实现死锁检测机制
定期进行并发压力测试
使用工具分析潜在的锁竞争情况

总结

Kvrocks中这个死锁问题展示了在复杂并发系统中锁管理的重要性。通过分析这个问题，我们不仅解决了具体的bug，也为系统未来的并发设计提供了宝贵的经验。正确处理锁的获取顺序和粒度是构建高可用分布式系统的关键因素之一。

kvrocks

项目地址：https://gitcode.com/gh_mirrors/kv/kvrocks

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Java

RuoYi-Vue3

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统