Kubernetes集群中kubectl exec返回Nginx 404错误的故障排查与解决
在Kubernetes生产环境中,运维人员偶尔会遇到一些看似简单但排查过程复杂的网络问题。近期在某次Kubernetes v1.31.6到v1.31.7的版本升级后,出现了一个典型现象:当对特定节点上的Pod执行kubectl exec命令时,返回了意外的Nginx 404错误。本文将深入分析这一问题的排查思路和解决方案。
问题现象
运维人员在对集群执行常规管理操作时发现,当针对节点kube-b3ci07.local上的任何Pod执行kubectl exec命令时,都会收到如下错误响应:
error: Internal error occurred: unable to upgrade connection: <html>
<head><title>404 Not Found</title></head>
<body>
<center><h1>404 Not Found</h1></center>
<hr><center>nginx/1.27.3</center>
</body>
</html>
值得注意的是,这个错误只出现在特定节点上,其他节点上的Pod操作完全正常。集群的基础组件包括:
- Kubernetes版本:v1.31.7
- 容器运行时:containerd 1.7.25
- CNI插件:Calico v3.28.2
- 部署方式:kubeadm
- 运行环境:Debian GNU/Linux 11
问题分析
1. 网络流量路径分析
kubectl exec命令的正常执行依赖于Kubernetes的API Server和kubelet之间的通信链路。典型的数据流路径是:
- kubectl客户端发起exec请求
- 请求通过负载均衡器(本例中是HAProxy)到达API Server
- API Server与目标节点的kubelet建立连接
- kubelet与容器运行时交互执行命令
出现Nginx 404错误表明,在这个通信链路的某个环节,请求被错误地路由到了Nginx服务器,而非预期的Kubernetes组件。
2. 关键排查点
通过深入排查,发现了几个重要线索:
-
版本不一致:虽然集群已升级到v1.31.7,但kubectl客户端版本为v1.32.1,存在版本偏差。不过将客户端降级到v1.31.5后问题依旧存在。
-
节点状态异常:问题节点处于Ready但SchedulingDisabled状态,这是运维人员有意为之的配置,用于隔离GitLab Runner的工作负载。
-
网络组件差异:集群前端确实部署了HAProxy 2.9.5作为负载均衡,但错误消息中出现的Nginx 1.27.3并非集群的标准组件。
-
节点重启效应:执行节点滚动重启后,问题自行消失,表明存在某种临时性的网络配置问题。
根本原因
综合各种线索,问题的根本原因可以归结为:
在特定节点上,kubelet与API Server之间的SPDY/WebSocket连接被错误地路由到了某个Nginx实例。这种情况通常发生在:
- 节点网络配置出现异常,导致kubelet的10250端口(默认kubelet端口)的流量被错误转发
- 节点上存在残留的iptables/nftables规则,干扰了正常的kubelet通信
- 节点间的网络路由表出现暂时性不一致
- 某些网络中间件(如负载均衡器或代理)配置不当
在本案例中,由于节点重启后问题消失,最可能的原因是节点上的网络配置出现了临时性不一致,可能是由于:
- 未完全清理的旧网络策略
- 残留的临时路由规则
- 网络接口状态异常
解决方案与最佳实践
1. 临时解决方案
执行节点滚动重启可以立即解决问题:
kubectl drain <问题节点>
systemctl reboot
kubectl uncordon <问题节点>
2. 根本性解决方案
为防止问题再次发生,建议采取以下措施:
-
网络配置检查:
- 使用
ip route和iptables-save检查节点路由和防火墙规则 - 确保kubelet的10250端口没有被其他服务占用或转发
- 使用
-
组件一致性检查:
- 保持kubectl客户端与服务器版本一致
- 定期验证所有节点的网络配置一致性
-
监控与告警:
- 设置对kubelet连接状态的监控
- 对非预期的HTTP响应(如Nginx 404)建立告警机制
-
升级策略优化:
- 在升级前执行完整的预检查
- 采用更稳妥的滚动升级策略
经验总结
这个案例展示了Kubernetes网络问题排查的典型思路:
- 首先确认问题范围(是特定节点还是全局性问题)
- 分析错误信息的特征(如Nginx版本信息)
- 检查组件版本一致性
- 验证网络通信链路
- 考虑临时性配置问题的可能性
对于生产环境中的Kubernetes集群,建议建立完善的变更管理和监控体系,确保能够快速发现和定位此类网络异常。同时,保持所有组件的版本一致性,定期验证网络配置的正确性,可以有效预防类似问题的发生。
通过这次事件,我们再次认识到Kubernetes网络通信的复杂性,以及全面监控系统的重要性。只有深入理解各组件间的交互机制,才能在出现问题时快速定位并解决。
kernelopenEuler内核是openEuler操作系统的核心,既是系统性能与稳定性的基石,也是连接处理器、设备与服务的桥梁。C080
baihu-dataset异构数据集“白虎”正式开源——首批开放10w+条真实机器人动作数据,构建具身智能标准化训练基座。00
mindquantumMindQuantum is a general software library supporting the development of applications for quantum computation.Python056
PaddleOCR-VLPaddleOCR-VL 是一款顶尖且资源高效的文档解析专用模型。其核心组件为 PaddleOCR-VL-0.9B,这是一款精简却功能强大的视觉语言模型(VLM)。该模型融合了 NaViT 风格的动态分辨率视觉编码器与 ERNIE-4.5-0.3B 语言模型,可实现精准的元素识别。Python00
GLM-4.7GLM-4.7上线并开源。新版本面向Coding场景强化了编码能力、长程任务规划与工具协同,并在多项主流公开基准测试中取得开源模型中的领先表现。 目前,GLM-4.7已通过BigModel.cn提供API,并在z.ai全栈开发模式中上线Skills模块,支持多模态任务的统一规划与协作。Jinja00
agent-studioopenJiuwen agent-studio提供零码、低码可视化开发和工作流编排,模型、知识库、插件等各资源管理能力TSX0133
Spark-Formalizer-X1-7BSpark-Formalizer 是由科大讯飞团队开发的专用大型语言模型,专注于数学自动形式化任务。该模型擅长将自然语言数学问题转化为精确的 Lean4 形式化语句,在形式化语句生成方面达到了业界领先水平。Python00