Apache SkyWalking Go Agent 栈溢出问题分析与修复

2025-05-08 09:53:14作者：宣海椒Queenly

问题背景

在Apache SkyWalking Go Agent的使用过程中，当OAP服务器不可达时，经过一段时间的压力测试后，程序会出现栈溢出崩溃。具体表现为goroutine的栈大小超过了1GB的限制，最终导致"stack overflow"致命错误。

问题现象

当配置的OAP服务器地址(SW_AGENT_REPORTER_GRPC_BACKEND_SERVICE)指向一个不可达的地址时，程序会经历以下过程：

本地日志缓冲区队列(logSendCh)逐渐填满
程序进入异常状态
最终因栈溢出而崩溃

从错误堆栈可以看到，崩溃发生在Go运行时的栈扩容逻辑中，这表明程序陷入了某种无限递归或深度调用链中。

根本原因分析

经过深入分析，这个问题源于SkyWalking Go Agent在网络不可达情况下的错误处理逻辑缺陷。具体来说：

当OAP服务器不可达时，Agent会持续尝试重连
每次重连失败都会生成错误日志
这些错误日志会被放入本地缓冲区队列(logSendCh)
当队列满时，写入操作会阻塞
阻塞导致调用栈不断增长，最终超过限制

这种设计在正常情况下没有问题，但在网络持续不可达的情况下，会形成一个正反馈循环：网络错误→记录错误→缓冲区满→阻塞→栈增长→最终崩溃。

解决方案

要解决这个问题，需要从以下几个方面进行改进：

非阻塞的日志记录机制：当logSendCh满时，应采用非阻塞方式处理，避免调用栈无限增长。
错误处理策略优化：对于网络不可达这类持续性错误，应该采用指数退避策略，而不是持续高频重试。
资源限制机制：对日志缓冲区大小设置合理上限，并在达到上限时采取丢弃策略或轮转机制。
健康检查机制：实现网络可达性检测，在检测到持续不可达时进入降级模式。

实现建议

具体实现上，可以修改日志发送逻辑如下：

select {
case logSendCh <- logEntry:
    // 正常发送
default:
    // 缓冲区满时的处理逻辑
    metrics.RecordDroppedLogs()
    // 可选择记录警告或直接丢弃
}

同时，对于网络连接部分，应实现类似这样的重试逻辑：

func connectWithRetry() {
    retryInterval := time.Second
    maxInterval := time.Minute
    
    for {
        conn, err := grpc.Dial(backendAddr)
        if err == nil {
            return conn
        }
        
        time.Sleep(retryInterval)
        retryInterval = min(retryInterval * 2, maxInterval)
    }
}