K3s集群中Pod Exec命令502错误的排查与解决
2025-05-05 15:46:00作者:魏献源Searcher
问题现象
在使用K3s v1.31.2+k3s1版本构建的集群环境中,管理员发现了一个奇怪的现象:kubectl exec命令在某些工作节点上执行失败,返回502 Bad Gateway错误,而kubectl logs命令却能正常工作。具体表现为:
- 在master节点(kubemaster01)和部分worker节点(kubenode05)上,
kubectl exec可以正常执行 - 在其他worker节点(kubenode04和kubenode06)上,
kubectl exec会失败并返回502错误 - 所有节点上的
kubectl logs命令都能正常工作
技术背景
K3s作为轻量级Kubernetes发行版,其内部通信机制与传统Kubernetes有所不同。当执行kubectl exec命令时,API服务器需要通过kubelet的10250端口与目标节点建立连接。这一过程依赖于K3s特有的websocket隧道机制。
排查过程
-
网络连通性检查:
- 确认master节点可以访问所有worker节点的10250端口
- 确认所有节点位于同一L2网络,没有中间网络设备干扰
-
日志分析:
- master节点日志显示"failed to find Session for client"错误
- 问题节点(kubenode04和kubenode06)的agent服务日志中缺少websocket隧道相关的连接信息
-
环境配置检查:
- 集群使用默认的flannel CNI
- 没有配置特殊网络策略或代理
根本原因
通过分析可以得出以下结论:
-
websocket隧道中断:K3s master与部分worker节点之间的websocket隧道连接异常中断,导致exec请求无法路由到目标节点的kubelet
-
连接状态不一致:虽然基础网络连通性正常,但高层应用层连接状态出现问题,特别是控制平面与节点间的长连接维护机制
-
CNI兼容性问题:虽然本案例中使用的是默认flannel,但类似问题在使用某些第三方CNI插件时更为常见,特别是那些不遵循节点PodCIDR分配的CNI
解决方案
-
临时解决方案:
- 重启问题节点的k3s-agent服务
systemctl restart k3s-agent.service -
长期解决方案:
- 升级到最新稳定版K3s
- 对于使用非标准CNI的环境,参考K3s文档调整egress selector配置
- 设置监控告警,及时发现websocket隧道连接异常
-
配置调整:
- 对于复杂网络环境,考虑调整K3s的egress selector模式
- 确保网络策略不会阻断控制平面与节点间的长连接
最佳实践建议
-
日志监控:建立对K3s控制平面和agent日志的集中监控,特别关注websocket相关错误
-
版本管理:保持K3s版本更新,及时修复已知的连接问题
-
网络规划:
- 确保控制平面与工作节点间的网络延迟稳定
- 避免网络设备对长连接的不当干扰
-
健康检查:定期验证所有节点的exec功能,而不仅仅是基础服务健康状态
通过以上分析和解决方案,可以有效预防和解决K3s集群中因websocket隧道问题导致的Pod exec命令失败情况,确保集群管理功能的完整性和可靠性。
登录后查看全文
热门项目推荐
相关项目推荐
atomcodeClaude Code 的开源替代方案。连接任意大模型,编辑代码,运行命令,自动验证 — 全自动执行。用 Rust 构建,极致性能。 | An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get StartedRust0212
cann-learning-hubCANN 学习中心仓,支持在线互动运行、边学边练,提供教程、示例与优化方案,一站式助力昇腾开发者快速上手。Jupyter Notebook0137
JoyAI-EchoJoyAI-Echo,这是一个独立的、仅用于推理的版本,旨在实现分钟级多镜头音视频生成。它采用了经过蒸馏的DMD生成器、配对的跨模态记忆以及故事级别的一致性。其性能的核心在于,一个跨模态视听记忆库能够在长达五分钟的视频中保持角色外观和语音音色的一致性。同时,一个训练后处理流程将基于记忆的强化学习与分布匹配蒸馏相结合,实现了7.5倍的速度提升,显著增强了视觉质量和对齐效果。00
GLM-5.2智谱开源 GLM-5.2,这是针对长文本任务的最新旗舰模型。相较于前代产品 GLM-5.1,它在长文本任务处理能力上实现了显著飞跃,并且首次在稳定的 100 万 token 上下文中提供这一能力。Jinja00
SwanLab⚡️SwanLab - an open-source, modern-design AI training tracking and visualization tool. Supports Cloud / Self-hosted use. Integrated with PyTorch / Transformers / LLaMA Factory / veRL/ Swift / Ultralytics / MMEngine / Keras etc.Python00
tiny-universe《大模型白盒子构建指南》:一个全手搓的Tiny-UniverseJupyter Notebook03
热门内容推荐
最新内容推荐
项目优选
收起
deepin linux kernel
C
32
16
暂无描述
Dockerfile
774
5.07 K
本项目是CANN提供的transformer类大模型算子库,实现网络在NPU上加速计算。
C++
872
2.01 K
openEuler内核是openEuler操作系统的核心,既是系统性能与稳定性的基石,也是连接处理器、设备与服务的桥梁。
C
468
461
Ascend Extension for PyTorch
Python
757
960
本项目是CANN提供的神经网络类计算算子库,实现网络在NPU上加速计算。
C++
696
1.4 K
本项目是CANN提供的数学类基础计算算子库,实现网络在NPU上加速计算。
C++
1.1 K
1.14 K
本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本,由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用,3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。
Dart
1.03 K
271
昇腾LLM分布式训练框架
Python
183
230
CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体,本仓库为其提供可复用的 Skills 模块。
Python
1.03 K
646