go-zero项目中gRPC空闲超时导致的goroutine泄漏问题分析

2025-05-05 12:17:34作者：袁立春Spencer

项目地址：https://gitcode.com/gh_mirrors/goz/go-zero

问题背景

在分布式系统开发中，etcd作为可靠的键值存储系统被广泛使用，而go-zero框架提供了对etcd的封装支持。在实际使用过程中，开发者发现当使用go-zero的etcd监控功能时，如果系统在30分钟内没有RPC请求活动，后续新的请求会导致goroutine泄漏问题。

问题现象

具体表现为：

当系统处于空闲状态超过30分钟后
新的RPC请求触发时
系统会产生两个无法回收的goroutine
这些goroutine会持续占用系统资源

技术分析

gRPC空闲超时机制

gRPC客户端默认会设置30分钟的空闲超时(IdleTimeout)机制。当连接在指定时间内没有活动时，gRPC会认为该连接已经空闲，并可能关闭底层连接以节省资源。

问题根源

在go-zero v1.6.0版本中，watchStream函数实现存在以下问题：

当gRPC连接因空闲超时被关闭时
监控通道(rch)会被关闭
但相关的goroutine没有正确退出
导致goroutine泄漏

关键代码分析

在原始实现中，OnCallBegin函数负责处理RPC调用的开始逻辑，但在处理空闲连接重新激活时存在缺陷：

func (m *Manager) OnCallBegin() error {
    // 处理活跃调用计数
    if atomic.AddInt32(&m.activeCallsCount, 1) > 0 {
        atomic.StoreInt32(&m.activeSinceLastTimerCheck, 1)
        return nil
    }
    
    // 尝试退出空闲模式
    if err := m.ExitIdleMode(); err != nil {
        atomic.AddInt32(&m.activeCallsCount, -1)
        return err
    }
    
    atomic.StoreInt32(&m.activeSinceLastTimerCheck, 1)
    return nil
}

同时，watchStream函数中的监控循环没有正确处理所有可能的退出条件：

func (c *cluster) watchStream(cli EtcdClient, key string, rev int64) bool {
    // 初始化监控通道
    var rch clientv3.WatchChan
    // ...初始化代码...
    
    for {
        select {
        case wresp, ok := <-rch:
            if !ok {
                logx.Error("etcd monitor chan has been closed")
                return false
            }
            // 处理其他错误情况...
        case <-c.done:
            return true
        }
    }
}