Kubernetes集群中kubectl exec返回Nginx 404错误的故障排查与解决
在Kubernetes生产环境中,运维人员偶尔会遇到一些看似简单但排查过程复杂的网络问题。近期在某次Kubernetes v1.31.6到v1.31.7的版本升级后,出现了一个典型现象:当对特定节点上的Pod执行kubectl exec命令时,返回了意外的Nginx 404错误。本文将深入分析这一问题的排查思路和解决方案。
问题现象
运维人员在对集群执行常规管理操作时发现,当针对节点kube-b3ci07.local上的任何Pod执行kubectl exec命令时,都会收到如下错误响应:
error: Internal error occurred: unable to upgrade connection: <html>
<head><title>404 Not Found</title></head>
<body>
<center><h1>404 Not Found</h1></center>
<hr><center>nginx/1.27.3</center>
</body>
</html>
值得注意的是,这个错误只出现在特定节点上,其他节点上的Pod操作完全正常。集群的基础组件包括:
- Kubernetes版本:v1.31.7
- 容器运行时:containerd 1.7.25
- CNI插件:Calico v3.28.2
- 部署方式:kubeadm
- 运行环境:Debian GNU/Linux 11
问题分析
1. 网络流量路径分析
kubectl exec命令的正常执行依赖于Kubernetes的API Server和kubelet之间的通信链路。典型的数据流路径是:
- kubectl客户端发起exec请求
- 请求通过负载均衡器(本例中是HAProxy)到达API Server
- API Server与目标节点的kubelet建立连接
- kubelet与容器运行时交互执行命令
出现Nginx 404错误表明,在这个通信链路的某个环节,请求被错误地路由到了Nginx服务器,而非预期的Kubernetes组件。
2. 关键排查点
通过深入排查,发现了几个重要线索:
-
版本不一致:虽然集群已升级到v1.31.7,但kubectl客户端版本为v1.32.1,存在版本偏差。不过将客户端降级到v1.31.5后问题依旧存在。
-
节点状态异常:问题节点处于Ready但SchedulingDisabled状态,这是运维人员有意为之的配置,用于隔离GitLab Runner的工作负载。
-
网络组件差异:集群前端确实部署了HAProxy 2.9.5作为负载均衡,但错误消息中出现的Nginx 1.27.3并非集群的标准组件。
-
节点重启效应:执行节点滚动重启后,问题自行消失,表明存在某种临时性的网络配置问题。
根本原因
综合各种线索,问题的根本原因可以归结为:
在特定节点上,kubelet与API Server之间的SPDY/WebSocket连接被错误地路由到了某个Nginx实例。这种情况通常发生在:
- 节点网络配置出现异常,导致kubelet的10250端口(默认kubelet端口)的流量被错误转发
- 节点上存在残留的iptables/nftables规则,干扰了正常的kubelet通信
- 节点间的网络路由表出现暂时性不一致
- 某些网络中间件(如负载均衡器或代理)配置不当
在本案例中,由于节点重启后问题消失,最可能的原因是节点上的网络配置出现了临时性不一致,可能是由于:
- 未完全清理的旧网络策略
- 残留的临时路由规则
- 网络接口状态异常
解决方案与最佳实践
1. 临时解决方案
执行节点滚动重启可以立即解决问题:
kubectl drain <问题节点>
systemctl reboot
kubectl uncordon <问题节点>
2. 根本性解决方案
为防止问题再次发生,建议采取以下措施:
-
网络配置检查:
- 使用
ip route和iptables-save检查节点路由和防火墙规则 - 确保kubelet的10250端口没有被其他服务占用或转发
- 使用
-
组件一致性检查:
- 保持kubectl客户端与服务器版本一致
- 定期验证所有节点的网络配置一致性
-
监控与告警:
- 设置对kubelet连接状态的监控
- 对非预期的HTTP响应(如Nginx 404)建立告警机制
-
升级策略优化:
- 在升级前执行完整的预检查
- 采用更稳妥的滚动升级策略
经验总结
这个案例展示了Kubernetes网络问题排查的典型思路:
- 首先确认问题范围(是特定节点还是全局性问题)
- 分析错误信息的特征(如Nginx版本信息)
- 检查组件版本一致性
- 验证网络通信链路
- 考虑临时性配置问题的可能性
对于生产环境中的Kubernetes集群,建议建立完善的变更管理和监控体系,确保能够快速发现和定位此类网络异常。同时,保持所有组件的版本一致性,定期验证网络配置的正确性,可以有效预防类似问题的发生。
通过这次事件,我们再次认识到Kubernetes网络通信的复杂性,以及全面监控系统的重要性。只有深入理解各组件间的交互机制,才能在出现问题时快速定位并解决。
atomcodeClaude Code 的开源替代方案。连接任意大模型,编辑代码,运行命令,自动验证 — 全自动执行。用 Rust 构建,极致性能。 | An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get StartedRust0153- DDeepSeek-V4-ProDeepSeek-V4-Pro(总参数 1.6 万亿,激活 49B)面向复杂推理和高级编程任务,在代码竞赛、数学推理、Agent 工作流等场景表现优异,性能接近国际前沿闭源模型。Python00
LongCat-Video-Avatar-1.5最新开源LongCat-Video-Avatar 1.5 版本,这是一款经过升级的开源框架,专注于音频驱动人物视频生成的极致实证优化与生产级就绪能力。该版本在 LongCat-Video 基础模型之上构建,可生成高度稳定的商用级虚拟人视频,支持音频-文本转视频(AT2V)、音频-文本-图像转视频(ATI2V)以及视频续播等原生任务,并能无缝兼容单流与多流音频输入。00
auto-devAutoDev 是一个 AI 驱动的辅助编程插件。AutoDev 支持一键生成测试、代码、提交信息等,还能够与您的需求管理系统(例如Jira、Trello、Github Issue 等)直接对接。 在IDE 中,您只需简单点击,AutoDev 会根据您的需求自动为您生成代码。Kotlin03
Intern-S2-PreviewIntern-S2-Preview,这是一款高效的350亿参数科学多模态基础模型。除了常规的参数与数据规模扩展外,Intern-S2-Preview探索了任务扩展:通过提升科学任务的难度、多样性与覆盖范围,进一步释放模型能力。Python00
skillhubopenJiuwen 生态的 Skill 托管与分发开源方案,支持自建与可选 ClawHub 兼容。Python0112