Kubernetes Metrics Server 节点指标采集异常问题分析与解决

2025-06-04 02:20:39作者：戚魁泉Nursing

问题现象

在 Kubernetes 集群中部署 Metrics Server 时，监控系统间歇性出现指标采集失败的情况。日志中显示如下关键错误信息：

Failed to scrape node err="Get \"https://10.101.3.75:10250/metrics/resource\": dial tcp 10.101.3.75:10250: connect: connection refused"

同时伴随 Horizontal Pod Autoscaler 的告警信息：

invalid metrics (1 invalid out of 1), first error is: failed to get cpu resource metric value

问题分析

网络拓扑异常

通过检查节点信息发现，集群节点配置了多个网络接口：

NAME         INTERNAL-IP
kubms-vt01   172.18.27.52
kubms-vt02   172.18.27.53 
kubws-vt01   172.18.27.55

但 Metrics Server 却尝试通过 10.101.3.0/24 网段的地址访问节点，这些地址属于另一个未使用的网络接口。这表明：

Kubernetes 节点对象中注册了多个 IP 地址
Metrics Server 可能获取到了错误的节点 IP 地址

Metrics Server 配置检查

检查 Metrics Server 的部署配置，关键参数如下：

args:
- --kubelet-preferred-address-types=InternalIP
- --kubelet-use-node-status-port
- --kubelet-insecure-tls=true

虽然已明确指定优先使用 InternalIP，但问题仍然存在，说明 IP 选择机制可能受到底层网络插件影响。

根本原因

深入排查发现，问题的根源在于 Calico 网络插件的 IP 自动检测机制。Calico 节点的配置显示：

NAME         IPV4
kubms-vt01   172.18.27.52/23
kubms-vt02   10.101.3.76/24  # 异常IP
kubws-vt01   172.18.27.55/23

Calico 使用了以下自动检测配置：

env:
- name: IP_AUTODETECTION_METHOD
  value: can-reach=$(NODEIP)
- name: IP
  value: autodetect

这种配置导致：

Calico 检测到了节点上的所有可用网络接口
部分节点注册了非预期的 IP 地址
Metrics Server 从 API Server 获取节点信息时，可能获取到这些非预期的 IP

解决方案

方案实施步骤

网络接口清理：
- 通过 netplan 重新配置节点网络
- 禁用 10.101.3.0/24 网段的网络接口
Calico 重新配置：
- 重启 Calico 的 DaemonSet Pods
- 确认 Calico 节点只使用正确的 IP 地址

验证检查：

calicoctl get nodes -o wide
kubectl get nodes -o wide

确保所有显示信息一致且正确

配置优化建议

对于生产环境，建议：

在 Calico 配置中明确指定 IP 检测方法：

- name: IP_AUTODETECTION_METHOD
  value: "interface=eth0"  # 明确指定网卡

考虑在节点层面禁用不必要的网络接口
对于 Metrics Server，可以增加以下监控：
- 定期检查日志中的 scrape 错误
- 设置 Prometheus 告警规则监控采集失败情况

经验总结

Kubernetes 节点多网卡环境需要特别注意 IP 地址管理
网络插件的自动检测机制可能导致非预期行为
生产环境中推荐明确指定网络配置，而非依赖自动检测
全面的监控系统可以帮助快速发现此类网络问题

这个问题展示了 Kubernetes 网络栈中各组件如何相互影响，也提醒我们在生产环境中需要全面考虑网络配置的各个方面。

metrics-server

Scalable and efficient source of container resource metrics for Kubernetes built-in autoscaling pipelines.

项目地址：https://gitcode.com/gh_mirrors/me/metrics-server

登录后查看全文

项目优选

收起

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

433

395

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

C++

1.01 K

atomcode

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Vue

1.68 K

989

Kubernetes Metrics Server 节点指标采集异常问题分析与解决

问题现象

问题分析

网络拓扑异常

Metrics Server 配置检查

根本原因

解决方案

方案实施步骤

配置优化建议

经验总结

热门内容推荐

最新内容推荐

项目优选

Kubernetes Metrics Server 节点指标采集异常问题分析与解决

问题现象

问题分析

网络拓扑异常

Metrics Server 配置检查

根本原因

解决方案

方案实施步骤

配置优化建议

经验总结

相关内容推荐

热门内容推荐

最新内容推荐

项目优选