Rancher项目中remotedialer连接泄漏问题的分析与解决

2025-05-08 01:46:03作者：秋泉律Samson

问题背景

在Rancher v2.11.0版本中，用户报告了一个关于remotedialer组件的内存泄漏问题。该问题表现为当通过API频繁访问下游集群时，Rancher服务器的内存使用量会持续增长，且不会在连接关闭后释放。这个问题不仅影响了系统性能，还可能导致Rancher服务器因内存耗尽而崩溃。

remotedialer是Rancher中负责处理集群间通信的核心组件，它通过WebSocket建立隧道连接，实现Rancher服务器与下游集群之间的双向通信。在v2.11.0版本中，该组件存在以下关键问题：

连接计数器不匹配：监控指标显示session_server_total_add_connections持续增长，而session_server_total_remove_connections却没有相应增加，表明连接没有被正确关闭和清理。
goroutine泄漏：堆内存分析显示github.com/rancher/remotedialer包中的clientDial、pipe.func2和pipe函数相关的goroutine持续累积，这些goroutine在连接关闭后没有被正确终止。
内存持续增长：go_memstats_heap_inuse_bytes指标显示Rancher进程的堆内存使用量随时间持续上升，验证了内存泄漏的存在。

为了验证这个问题，技术团队设计了以下测试方案：

测试结果证实了问题的存在：连接计数器不平衡，内存使用持续增长，且堆内存分析显示remotedialer相关函数的内存没有被释放。

在Rancher v2.11.1-alpha2版本中，这个问题得到了修复。修复后的验证测试显示：

连接计数器session_server_total_add_connections和session_server_total_remove_connections现在保持同步增长，表明连接被正确关闭。
堆内存分析显示remotedialer相关的goroutine在连接关闭后被正确清理。
内存使用量在负载测试后能够回落到正常水平，不再持续增长。

这个问题对Rancher用户有以下影响和建议：

升级建议：所有使用Rancher v2.11.0版本的用户应尽快升级到v2.11.1或更高版本，以避免潜在的内存泄漏问题。
监控建议：在生产环境中，建议始终启用Prometheus监控，并关注session_server_total_add_connections和session_server_total_remove_connections指标的平衡情况。
性能优化：对于高频访问场景，可以考虑增加连接池管理或优化API调用频率，以减轻系统负担。
诊断方法：当遇到类似性能问题时，可以借鉴本文中的诊断方法，通过Prometheus指标和堆内存profile分析来定位问题根源。