Kubeblocks中Minio和Zookeeper升级至v1版本时的镜像拉取问题分析

2025-06-29 11:08:17作者：余洋婵Anita

问题背景

在Kubeblocks项目中，用户尝试将Minio和Zookeeper集群从v1alpha1版本升级到v1版本时，遇到了Pod初始化失败的问题。具体表现为新创建的Pod在初始化阶段无法拉取msoap/shell2http:1.16.0镜像，导致容器启动失败。

问题现象

升级过程中，部分Pod会卡在Init:ImagePullBackOff状态，查看Pod详情会发现以下关键错误信息：

Failed to pull image "msoap/shell2http:1.16.0": failed to pull and unpack image "docker.io/msoap/shell2http:1.16.0": failed to resolve reference "docker.io/msoap/shell2http:1.16.0": failed to do request: Head "https://registry-1.docker.io/v2/msoap/shell2http/manifests/1.16.0": dial tcp 104.244.45.246:443: connect: connection timed out

问题分析

镜像拉取机制变化：v1版本引入了新的角色探测机制，需要使用shell2http工具来实现HTTP接口的角色检查功能。
网络连接问题：错误信息表明Kubernetes节点无法连接到Docker公共镜像仓库(registry-1.docker.io)，导致镜像拉取超时。
版本兼容性：从日志中可以看到，升级过程中混合使用了不同版本的Kubeblocks工具镜像(0.8.2和0.9.4-beta.10)，可能存在兼容性问题。
初始化容器顺序：Pod初始化过程中，role-agent-installer容器必须在其他容器之前成功运行，而它依赖的shell2http镜像拉取失败会阻塞整个Pod的启动流程。

解决方案

使用最新版本Addon：确保使用与Kubeblocks 1.0.0版本兼容的最新Minio和Zookeeper Addon版本。
镜像仓库配置：
- 配置集群使用可靠的镜像仓库代理
- 将所需镜像预先拉取到私有镜像仓库
- 配置适当的镜像拉取策略
网络连接检查：
- 验证节点到Docker仓库的网络连通性
- 检查网络策略设置
- 考虑使用本地镜像源替代
升级流程优化：
- 确保所有组件版本一致
- 先升级Addon再执行集群升级
- 监控升级过程并及时处理异常

问题修复验证

在修复后，用户确认升级成功，集群状态恢复正常：

kubectl get pod -l app.kubernetes.io/instance=minio-cluster
NAME                    READY   STATUS    RESTARTS   AGE
minio-cluster-minio-0   2/2     Running   0          12m
minio-cluster-minio-1   2/2     Running   0          14m