首页
/ kube-prometheus-stack升级后kubelet监控指标丢失问题分析

kube-prometheus-stack升级后kubelet监控指标丢失问题分析

2025-06-07 19:25:00作者:昌雅子Ethen

问题背景

在使用kube-prometheus-stack(版本68.1.0)进行Helm升级后,用户反馈无法获取kubelet相关监控指标,特别是kubelet_volume_stats_used_bytes等卷统计指标,导致所有依赖这些指标的仪表板停止工作。

根本原因分析

经过深入调查,发现这个问题源于67.11.0版本引入的一个配置变更。在该版本中,kubelet的ServiceMonitor监控配置新增了一个显式开关kubelet.serviceMonitor.kubelet,默认值为true

当用户使用--reuse-values参数进行Helm升级时,系统会保留旧版本的配置值,而不会应用新版本values.yaml中的默认值。因此,即使新版本默认启用了kubelet监控,由于reuse-values的作用,这个关键配置项没有被正确更新。

影响范围

这个问题主要影响以下几类监控指标:

  1. 卷使用情况指标(如kubelet_volume_stats_used_bytes
  2. 其他kubelet相关指标(如kubelet_runtime_operations_total等)

解决方案

对于遇到此问题的用户,建议采用以下任一解决方案:

  1. 显式设置配置值: 在升级时明确指定kubelet监控开关:

    helm upgrade prometheus prometheus-community/kube-prometheus-stack --set kubelet.serviceMonitor.kubelet=true
    
  2. 不使用reuse-values: 对于重要升级,建议不使用--reuse-values参数,而是基于当前values文件进行升级:

    helm get values prometheus > values.yaml
    helm upgrade prometheus prometheus-community/kube-prometheus-stack -f values.yaml
    
  3. 回滚方案: 如果已经遇到问题,可以回滚到之前版本:

    helm rollback prometheus <revision-number>
    

最佳实践建议

  1. 升级前检查变更日志:特别是对于监控类组件,应仔细阅读版本变更说明
  2. 避免过度使用reuse-values:这个参数可能掩盖重要的配置变更
  3. 测试环境先行:重要升级应在测试环境验证后再应用到生产
  4. 监控告警配置:为关键指标配置告警,及时发现监控数据异常

技术细节

kubelet指标是通过Prometheus Operator创建的ServiceMonitor资源来采集的。在67.11.0版本之前,这个监控是隐式启用的;之后版本改为显式配置,提高了灵活性但也带来了升级兼容性问题。

理解这个机制有助于运维人员更好地管理监控系统,避免类似问题的发生。

登录后查看全文
热门项目推荐

热门内容推荐

最新内容推荐

项目优选

收起
ohos_react_nativeohos_react_native
React Native鸿蒙化仓库
C++
176
261
RuoYi-Vue3RuoYi-Vue3
🎉 (RuoYi)官方仓库 基于SpringBoot,Spring Security,JWT,Vue3 & Vite、Element Plus 的前后端分离权限管理系统
Vue
860
511
ShopXO开源商城ShopXO开源商城
🔥🔥🔥ShopXO企业级免费开源商城系统,可视化DIY拖拽装修、包含PC、H5、多端小程序(微信+支付宝+百度+头条&抖音+QQ+快手)、APP、多仓库、多商户、多门店、IM客服、进销存,遵循MIT开源协议发布、基于ThinkPHP8框架研发
JavaScript
93
15
openGauss-serveropenGauss-server
openGauss kernel ~ openGauss is an open source relational database management system
C++
129
182
openHiTLSopenHiTLS
旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件,通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求,让密码技术应用更简单,同时探索后量子等先进算法创新实践,构建密码前沿技术底座!
C
259
300
kernelkernel
deepin linux kernel
C
22
5
cherry-studiocherry-studio
🍒 Cherry Studio 是一款支持多个 LLM 提供商的桌面客户端
TypeScript
595
57
CangjieCommunityCangjieCommunity
为仓颉编程语言开发者打造活跃、开放、高质量的社区环境
Markdown
1.07 K
0
HarmonyOS-ExamplesHarmonyOS-Examples
本仓将收集和展示仓颉鸿蒙应用示例代码,欢迎大家投稿,在仓颉鸿蒙社区展现你的妙趣设计!
Cangjie
398
371
Cangjie-ExamplesCangjie-Examples
本仓将收集和展示高质量的仓颉示例代码,欢迎大家投稿,让全世界看到您的妙趣设计,也让更多人通过您的编码理解和喜爱仓颉语言。
Cangjie
332
1.08 K