首页
/ kube-prometheus-stack升级后kubelet监控指标丢失问题分析

kube-prometheus-stack升级后kubelet监控指标丢失问题分析

2025-06-07 07:48:48作者:昌雅子Ethen

问题背景

在使用kube-prometheus-stack(版本68.1.0)进行Helm升级后,用户反馈无法获取kubelet相关监控指标,特别是kubelet_volume_stats_used_bytes等卷统计指标,导致所有依赖这些指标的仪表板停止工作。

根本原因分析

经过深入调查,发现这个问题源于67.11.0版本引入的一个配置变更。在该版本中,kubelet的ServiceMonitor监控配置新增了一个显式开关kubelet.serviceMonitor.kubelet,默认值为true

当用户使用--reuse-values参数进行Helm升级时,系统会保留旧版本的配置值,而不会应用新版本values.yaml中的默认值。因此,即使新版本默认启用了kubelet监控,由于reuse-values的作用,这个关键配置项没有被正确更新。

影响范围

这个问题主要影响以下几类监控指标:

  1. 卷使用情况指标(如kubelet_volume_stats_used_bytes
  2. 其他kubelet相关指标(如kubelet_runtime_operations_total等)

解决方案

对于遇到此问题的用户,建议采用以下任一解决方案:

  1. 显式设置配置值: 在升级时明确指定kubelet监控开关:

    helm upgrade prometheus prometheus-community/kube-prometheus-stack --set kubelet.serviceMonitor.kubelet=true
    
  2. 不使用reuse-values: 对于重要升级,建议不使用--reuse-values参数,而是基于当前values文件进行升级:

    helm get values prometheus > values.yaml
    helm upgrade prometheus prometheus-community/kube-prometheus-stack -f values.yaml
    
  3. 回滚方案: 如果已经遇到问题,可以回滚到之前版本:

    helm rollback prometheus <revision-number>
    

最佳实践建议

  1. 升级前检查变更日志:特别是对于监控类组件,应仔细阅读版本变更说明
  2. 避免过度使用reuse-values:这个参数可能掩盖重要的配置变更
  3. 测试环境先行:重要升级应在测试环境验证后再应用到生产
  4. 监控告警配置:为关键指标配置告警,及时发现监控数据异常

技术细节

kubelet指标是通过Prometheus Operator创建的ServiceMonitor资源来采集的。在67.11.0版本之前,这个监控是隐式启用的;之后版本改为显式配置,提高了灵活性但也带来了升级兼容性问题。

理解这个机制有助于运维人员更好地管理监控系统,避免类似问题的发生。

登录后查看全文
热门项目推荐
相关项目推荐

项目优选

收起
kernelkernel
deepin linux kernel
C
22
6
docsdocs
OpenHarmony documentation | OpenHarmony开发者文档
Dockerfile
197
2.17 K
ohos_react_nativeohos_react_native
React Native鸿蒙化仓库
C++
208
285
pytorchpytorch
Ascend Extension for PyTorch
Python
59
94
RuoYi-Vue3RuoYi-Vue3
🎉 (RuoYi)官方仓库 基于SpringBoot,Spring Security,JWT,Vue3 & Vite、Element Plus 的前后端分离权限管理系统
Vue
974
574
nop-entropynop-entropy
Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台,包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分,采用java语言实现,可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用
Java
9
1
ops-mathops-math
本项目是CANN提供的数学类基础计算算子库,实现网络在NPU上加速计算。
C++
549
81
openHiTLSopenHiTLS
旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件,通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求,让密码技术应用更简单,同时探索后量子等先进算法创新实践,构建密码前沿技术底座!
C
1.02 K
399
communitycommunity
本项目是CANN开源社区的核心管理仓库,包含社区的治理章程、治理组织、通用操作指引及流程规范等基础信息
393
27
MateChatMateChat
前端智能化场景解决方案UI库,轻松构建你的AI应用,我们将持续完善更新,欢迎你的使用与建议。 官网地址:https://matechat.gitcode.com
1.2 K
133