Canal服务器监控导致大量CLOSE_WAIT连接问题的分析与解决

2025-05-06 00:55:13作者：余洋婵Anita

问题背景

在Canal服务器部署环境中，当引入Prometheus监控系统并使用Telegraf收集Canal的metrics端口数据后，系统出现了大量处于CLOSE_WAIT状态的TCP连接。通过netstat -antp命令统计发现，CLOSE_WAIT连接数量高达79705个，这可能导致系统资源耗尽，最终引发服务故障。

技术分析

CLOSE_WAIT是TCP连接关闭过程中的一个中间状态，表示本地已经收到对方的FIN包，但应用层尚未调用close()关闭连接。大量CLOSE_WAIT连接通常表明：

应用层没有正确关闭连接
连接关闭处理逻辑存在缺陷
系统参数配置不当导致连接无法及时回收

在本案例中，问题出现在引入Prometheus监控后，这表明Telegraf数据收集器与Canal metrics端口之间的连接管理存在问题。可能的原因是：

Telegraf收集频率过高，导致短时间内建立大量连接
Canal服务端没有正确处理监控客户端的连接关闭请求
系统TCP参数配置不合理，无法及时回收半开连接

解决方案

针对此问题，可以从以下几个方面进行优化：

调整系统TCP参数：修改Linux内核参数，加快半开连接的检测和回收速度。关键参数包括：
- net.ipv4.tcp_keepalive_time：缩短TCP keepalive探测间隔
- net.ipv4.tcp_keepalive_probes：增加探测次数
- net.ipv4.tcp_keepalive_intvl：减少探测间隔
优化监控配置：
- 调整Telegraf的收集间隔，避免过于频繁的连接建立
- 确保Telegraf正确关闭与Canal的连接
- 考虑使用连接池管理监控连接
增强Canal服务端连接管理：
- 实现连接超时机制
- 增加连接数限制
- 完善连接关闭处理逻辑

实施建议

对于生产环境，建议采取以下具体措施：

首先调整系统参数，可以临时缓解问题：

echo 300 > /proc/sys/net/ipv4/tcp_keepalive_time
echo 5 > /proc/sys/net/ipv4/tcp_keepalive_probes
echo 10 > /proc/sys/net/ipv4/tcp_keepalive_intvl

然后评估监控收集频率，根据实际需求调整Telegraf配置：
```
[agent]
  interval = "60s"
```
长期解决方案是升级Canal服务端，增强其连接管理能力，特别是针对监控客户端的连接处理。

总结

监控系统的引入虽然提升了运维能力，但也可能带来意想不到的问题。本案例展示了监控收集导致TCP连接堆积的典型场景，通过调整系统参数和优化监控配置可以有效解决。这提醒我们在引入新组件时，需要全面评估其对系统各方面的影响，特别是资源使用和连接管理方面。

canal

项目地址：https://gitcode.com/gh_mirrors/ca/canal

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

165

nop-entropy

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

RuoYi-Vue3

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解