kube-prometheus-stack升级后kubelet监控指标丢失问题分析

2025-06-07 18:12:37作者：昌雅子Ethen

问题背景

在使用kube-prometheus-stack（版本68.1.0）进行Helm升级后，用户反馈无法获取kubelet相关监控指标，特别是kubelet_volume_stats_used_bytes等卷统计指标，导致所有依赖这些指标的仪表板停止工作。

经过深入调查，发现这个问题源于67.11.0版本引入的一个配置变更。在该版本中，kubelet的ServiceMonitor监控配置新增了一个显式开关kubelet.serviceMonitor.kubelet，默认值为true。

当用户使用--reuse-values参数进行Helm升级时，系统会保留旧版本的配置值，而不会应用新版本values.yaml中的默认值。因此，即使新版本默认启用了kubelet监控，由于reuse-values的作用，这个关键配置项没有被正确更新。

这个问题主要影响以下几类监控指标：

对于遇到此问题的用户，建议采用以下任一解决方案：

显式设置配置值：在升级时明确指定kubelet监控开关：

helm upgrade prometheus prometheus-community/kube-prometheus-stack --set kubelet.serviceMonitor.kubelet=true

不使用reuse-values：对于重要升级，建议不使用--reuse-values参数，而是基于当前values文件进行升级：
```
helm get values prometheus > values.yaml
helm upgrade prometheus prometheus-community/kube-prometheus-stack -f values.yaml
```
回滚方案：如果已经遇到问题，可以回滚到之前版本：
```
helm rollback prometheus <revision-number>
```

kubelet指标是通过Prometheus Operator创建的ServiceMonitor资源来采集的。在67.11.0版本之前，这个监控是隐式启用的；之后版本改为显式配置，提高了灵活性但也带来了升级兼容性问题。

理解这个机制有助于运维人员更好地管理监控系统，避免类似问题的发生。

登录后查看全文