Apache Pulsar中DrainingHashesTracker的同步方法死锁问题分析

2025-05-15 05:44:29作者：凌朦慧Richard

问题背景

在Apache Pulsar 4.0.1版本中，发现了一个潜在的线程死锁问题，主要涉及DrainingHashesTracker类的同步方法实现。这个问题在测试环境中被发现，虽然没有完整的线程转储(jstack)信息，但从获取的堆转储分析中可以看出多个线程处于阻塞状态，表明存在死锁情况。

技术分析

DrainingHashesTracker类是Pulsar内部用于跟踪和管理哈希值的重要组件。当前实现中使用了synchronized关键字来保证线程安全，但这种粗粒度的同步机制在高并发场景下容易引发死锁问题。

从堆转储分析可以看到：

多个线程在等待获取DrainingHashesTracker对象的监视器锁
线程调用链显示存在循环等待条件
同步方法之间的相互调用可能导致锁的交叉持有

问题根源

synchronized方法虽然简单易用，但在复杂系统中存在几个明显缺陷：

锁粒度太粗：整个方法被同步，限制了并发性能
不可中断：一旦线程进入同步块，无法被中断
缺乏灵活性：无法实现尝试获取锁或超时机制
容易形成死锁：当多个同步方法相互调用时，容易形成循环等待

解决方案

针对这个问题，建议采用以下改进方案：

使用ReadWriteLock替代synchronized：
- 读操作使用读锁，允许多线程并发读取
- 写操作使用写锁，保证写操作的独占性
- 这种细粒度锁能显著提高并发性能
锁分离技术：
- 将不同功能的锁分离，减少锁竞争
- 例如将对哈希表的操作与状态跟踪分离
引入超时机制：
- 使用tryLock()方法避免无限期等待
- 设置合理的超时时间，超时后可以记录日志或采取其他恢复措施

实现建议

具体代码改造可以参考以下模式：

// 替换前
public synchronized void addHash(int hash) {
    // 实现代码
}

// 替换后
private final ReadWriteLock rwLock = new ReentrantReadWriteLock();

public void addHash(int hash) {
    rwLock.writeLock().lock();
    try {
        // 实现代码
    } finally {
        rwLock.writeLock().unlock();
    }
}