Apache APISIX 连接 ETCD 超时问题分析与解决方案

2025-05-15 12:13:46作者：瞿蔚英Wynne

问题现象

在 Apache APISIX 2.13 版本与 ETCD 3.4.13 集群的实际生产环境中，我们观察到以下异常现象：

APISIX 与 ETCD 集群的连接频繁出现超时情况
APISIX-Ingress-Controller 同步集群变更到 APISIX 时因超时不断重试
最终导致 APISIX 的 CPU 使用率异常飙升

从日志中可以明显看到以下关键错误信息：

update endpoint: http://xxxxxx:2379/ to unhealthy
http://xxxxx:2379/: connection timed out. Retrying

根本原因分析

经过深入排查，我们发现导致这一问题的核心因素有以下几个方面：

网络连接参数配置不当：虽然配置中设置了 timeout: 30 秒，但实际网络环境可能需要更长的超时时间
ETCD 集群负载过高：当 ETCD 集群处理大量请求或存在性能瓶颈时，响应时间可能超过预设的超时阈值
健康检查机制过于敏感：当前的健康检查机制在检测到超时后立即将节点标记为不健康，可能导致频繁切换
重试机制缺乏退避策略：简单的立即重试机制在网络不稳定时可能加剧问题

解决方案

1. 优化 ETCD 连接参数

在 APISIX 配置中，建议调整以下参数：

etcd:
  timeout: 60   # 将超时时间从30秒增加到60秒
  health_check_timeout: 10  # 健康检查专用超时时间
  health_check_interval: 30 # 健康检查间隔
  retry_timeout: 5         # 重试间隔时间

2. 增强网络稳定性

对于生产环境，建议采取以下措施：

确保 APISIX 与 ETCD 集群之间的网络延迟在合理范围内
考虑使用更高性能的网络设备或专线连接
监控网络质量指标，如丢包率、延迟等

3. 调整健康检查策略

修改健康检查机制，使其更加智能：

实现基于滑动窗口的健康状态判定
引入渐进式惩罚机制，而不是立即标记为不健康
增加恢复检测逻辑，避免频繁状态切换

4. 优化重试机制

改进重试策略以减少系统负载：

实现指数退避算法，逐步增加重试间隔
限制最大重试次数
记录重试日志用于后续分析

配置优化建议

针对 APISIX 的 Nginx 配置部分，建议增加以下优化：

http_configuration_snippet: |
  # 增加TCP连接保持参数
  keepalive_requests 10000;
  keepalive_timeout 300s;
  
  # 优化代理连接参数
  proxy_connect_timeout 60s;
  proxy_send_timeout 600s;
  proxy_read_timeout 600s;
  
  # 增加连接池大小
  upstream_keepalive_connections 100;
  upstream_keepalive_timeout 60s;