首页
/ kube-prometheus-stack升级后kubelet监控指标丢失问题分析

kube-prometheus-stack升级后kubelet监控指标丢失问题分析

2025-06-07 22:04:55作者:昌雅子Ethen

问题背景

在使用kube-prometheus-stack(版本68.1.0)进行Helm升级后,用户反馈无法获取kubelet相关监控指标,特别是kubelet_volume_stats_used_bytes等卷统计指标,导致所有依赖这些指标的仪表板停止工作。

根本原因分析

经过深入调查,发现这个问题源于67.11.0版本引入的一个配置变更。在该版本中,kubelet的ServiceMonitor监控配置新增了一个显式开关kubelet.serviceMonitor.kubelet,默认值为true

当用户使用--reuse-values参数进行Helm升级时,系统会保留旧版本的配置值,而不会应用新版本values.yaml中的默认值。因此,即使新版本默认启用了kubelet监控,由于reuse-values的作用,这个关键配置项没有被正确更新。

影响范围

这个问题主要影响以下几类监控指标:

  1. 卷使用情况指标(如kubelet_volume_stats_used_bytes
  2. 其他kubelet相关指标(如kubelet_runtime_operations_total等)

解决方案

对于遇到此问题的用户,建议采用以下任一解决方案:

  1. 显式设置配置值: 在升级时明确指定kubelet监控开关:

    helm upgrade prometheus prometheus-community/kube-prometheus-stack --set kubelet.serviceMonitor.kubelet=true
    
  2. 不使用reuse-values: 对于重要升级,建议不使用--reuse-values参数,而是基于当前values文件进行升级:

    helm get values prometheus > values.yaml
    helm upgrade prometheus prometheus-community/kube-prometheus-stack -f values.yaml
    
  3. 回滚方案: 如果已经遇到问题,可以回滚到之前版本:

    helm rollback prometheus <revision-number>
    

最佳实践建议

  1. 升级前检查变更日志:特别是对于监控类组件,应仔细阅读版本变更说明
  2. 避免过度使用reuse-values:这个参数可能掩盖重要的配置变更
  3. 测试环境先行:重要升级应在测试环境验证后再应用到生产
  4. 监控告警配置:为关键指标配置告警,及时发现监控数据异常

技术细节

kubelet指标是通过Prometheus Operator创建的ServiceMonitor资源来采集的。在67.11.0版本之前,这个监控是隐式启用的;之后版本改为显式配置,提高了灵活性但也带来了升级兼容性问题。

理解这个机制有助于运维人员更好地管理监控系统,避免类似问题的发生。

登录后查看全文
热门项目推荐
相关项目推荐