首页
/ Kubernetes Metrics Server 节点指标采集异常问题分析与解决

Kubernetes Metrics Server 节点指标采集异常问题分析与解决

2025-06-04 03:44:54作者:戚魁泉Nursing

问题现象

在 Kubernetes 集群中部署 Metrics Server 时,监控系统间歇性出现指标采集失败的情况。日志中显示如下关键错误信息:

Failed to scrape node err="Get \"https://10.101.3.75:10250/metrics/resource\": dial tcp 10.101.3.75:10250: connect: connection refused"

同时伴随 Horizontal Pod Autoscaler 的告警信息:

invalid metrics (1 invalid out of 1), first error is: failed to get cpu resource metric value

问题分析

网络拓扑异常

通过检查节点信息发现,集群节点配置了多个网络接口:

NAME         INTERNAL-IP
kubms-vt01   172.18.27.52
kubms-vt02   172.18.27.53 
kubws-vt01   172.18.27.55

但 Metrics Server 却尝试通过 10.101.3.0/24 网段的地址访问节点,这些地址属于另一个未使用的网络接口。这表明:

  1. Kubernetes 节点对象中注册了多个 IP 地址
  2. Metrics Server 可能获取到了错误的节点 IP 地址

Metrics Server 配置检查

检查 Metrics Server 的部署配置,关键参数如下:

args:
- --kubelet-preferred-address-types=InternalIP
- --kubelet-use-node-status-port
- --kubelet-insecure-tls=true

虽然已明确指定优先使用 InternalIP,但问题仍然存在,说明 IP 选择机制可能受到底层网络插件影响。

根本原因

深入排查发现,问题的根源在于 Calico 网络插件的 IP 自动检测机制。Calico 节点的配置显示:

NAME         IPV4
kubms-vt01   172.18.27.52/23
kubms-vt02   10.101.3.76/24  # 异常IP
kubws-vt01   172.18.27.55/23

Calico 使用了以下自动检测配置:

env:
- name: IP_AUTODETECTION_METHOD
  value: can-reach=$(NODEIP)
- name: IP
  value: autodetect

这种配置导致:

  1. Calico 检测到了节点上的所有可用网络接口
  2. 部分节点注册了非预期的 IP 地址
  3. Metrics Server 从 API Server 获取节点信息时,可能获取到这些非预期的 IP

解决方案

方案实施步骤

  1. 网络接口清理

    • 通过 netplan 重新配置节点网络
    • 禁用 10.101.3.0/24 网段的网络接口
  2. Calico 重新配置

    • 重启 Calico 的 DaemonSet Pods
    • 确认 Calico 节点只使用正确的 IP 地址
  3. 验证检查

    calicoctl get nodes -o wide
    kubectl get nodes -o wide
    

    确保所有显示信息一致且正确

配置优化建议

对于生产环境,建议:

  1. 在 Calico 配置中明确指定 IP 检测方法:

    - name: IP_AUTODETECTION_METHOD
      value: "interface=eth0"  # 明确指定网卡
    
  2. 考虑在节点层面禁用不必要的网络接口

  3. 对于 Metrics Server,可以增加以下监控:

    • 定期检查日志中的 scrape 错误
    • 设置 Prometheus 告警规则监控采集失败情况

经验总结

  1. Kubernetes 节点多网卡环境需要特别注意 IP 地址管理
  2. 网络插件的自动检测机制可能导致非预期行为
  3. 生产环境中推荐明确指定网络配置,而非依赖自动检测
  4. 全面的监控系统可以帮助快速发现此类网络问题

这个问题展示了 Kubernetes 网络栈中各组件如何相互影响,也提醒我们在生产环境中需要全面考虑网络配置的各个方面。

登录后查看全文
热门项目推荐

热门内容推荐

最新内容推荐

项目优选

收起
ohos_react_nativeohos_react_native
React Native鸿蒙化仓库
C++
179
263
RuoYi-Vue3RuoYi-Vue3
🎉 (RuoYi)官方仓库 基于SpringBoot,Spring Security,JWT,Vue3 & Vite、Element Plus 的前后端分离权限管理系统
Vue
869
514
openGauss-serveropenGauss-server
openGauss kernel ~ openGauss is an open source relational database management system
C++
130
183
openHiTLSopenHiTLS
旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件,通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求,让密码技术应用更简单,同时探索后量子等先进算法创新实践,构建密码前沿技术底座!
C
307
337
Cangjie-ExamplesCangjie-Examples
本仓将收集和展示高质量的仓颉示例代码,欢迎大家投稿,让全世界看到您的妙趣设计,也让更多人通过您的编码理解和喜爱仓颉语言。
Cangjie
333
1.09 K
harmony-utilsharmony-utils
harmony-utils 一款功能丰富且极易上手的HarmonyOS工具库,借助众多实用工具类,致力于助力开发者迅速构建鸿蒙应用。其封装的工具涵盖了APP、设备、屏幕、授权、通知、线程间通信、弹框、吐司、生物认证、用户首选项、拍照、相册、扫码、文件、日志,异常捕获、字符、字符串、数字、集合、日期、随机、base64、加密、解密、JSON等一系列的功能和操作,能够满足各种不同的开发需求。
ArkTS
18
0
CangjieCommunityCangjieCommunity
为仓颉编程语言开发者打造活跃、开放、高质量的社区环境
Markdown
1.08 K
0
kernelkernel
deepin linux kernel
C
22
5
WxJavaWxJava
微信开发 Java SDK,支持微信支付、开放平台、公众号、视频号、企业微信、小程序等的后端开发,记得关注公众号及时接受版本更新信息,以及加入微信群进行深入讨论
Java
829
22
cherry-studiocherry-studio
🍒 Cherry Studio 是一款支持多个 LLM 提供商的桌面客户端
TypeScript
601
58