KubeBlocks中Redis升级至v1版本时Sentinel Pod崩溃问题分析

2025-06-29 19:37:46作者：仰钰奇

问题背景

在KubeBlocks项目中，用户尝试将Redis集群从v1alpha1版本升级至v1版本时，遇到了Redis Sentinel Pod持续崩溃的问题。该问题表现为Sentinel Pod进入CrashLoopBackOff状态，导致整个集群状态异常。

问题现象

升级过程中，Redis Sentinel Pod出现以下错误日志：

1:X 03 Apr 2025 03:46:24.660 # Failed to resolve hostname 'redis-cluster-redis-0.redis-cluster-redis-headless.default.svc.cluster.local'

*** FATAL CONFIG FILE ERROR (Redis 7.2.7) ***
Reading the configuration file, at line 10
>>> 'sentinel monitor redis-cluster-redis redis-cluster-redis-0.redis-cluster-redis-headless.default.svc.cluster.local 6379 2'
Can't resolve instance hostname.

根本原因分析

DNS解析失败：Sentinel配置中使用了Redis Pod的完整域名，但在升级过程中这些域名无法被正确解析。
配置生成逻辑缺陷：升级过程中，Sentinel的配置文件被重新生成，但其中的主机名解析逻辑存在问题。
版本兼容性问题：从v1alpha1到v1版本的升级过程中，组件定义(ComponentDef)发生了变化，但升级逻辑未能完全处理这些变化。

解决方案

KubeBlocks团队通过以下方式解决了该问题：

完善升级逻辑：确保在升级过程中正确处理组件定义的变更，特别是Redis Sentinel的配置生成逻辑。
增强DNS解析可靠性：优化了Pod间服务发现的机制，确保在升级过程中DNS解析能够正常工作。
改进错误处理：增加了对配置错误的早期检测和更友好的错误提示。

验证结果

修复后，升级过程顺利完成，所有Pod状态正常：

NAME                              READY   STATUS    RESTARTS   AGE
redis-cluster-redis-0             3/3     Running   0          7m5s
redis-cluster-redis-1             3/3     Running   0          7m39s
redis-cluster-redis-sentinel-0    2/2     Running   0          6m5s
redis-cluster-redis-sentinel-1    2/2     Running   0          7m24s
redis-cluster-redis-sentinel-2    2/2     Running   0          7m44s
redis-cluster-redis-twemproxy-0   1/1     Running   0          7m14s