Apache DevLake 在 GKE 集群部署中的持久化存储问题分析与解决方案

2025-07-03 19:38:25作者：冯爽妲Honey

问题背景

在 Kubernetes 环境中部署 Apache DevLake 时，用户遇到了一个与持久化存储相关的典型问题。具体表现为：在 GKE 集群上通过 Helm 全新安装 DevLake 后，UI 界面异常跳转至迁移页面，而实际上这是一个全新的安装环境。

用户按照官方文档指引，使用 Helm 在 GKE 集群上全新部署了 DevLake，并正确设置了 ENCRYPTION_SECRET。部署完成后，通过端口转发访问 UI 时，系统却显示"检测到新的迁移脚本"并跳转至迁移页面，这与全新安装的预期行为不符。

经过深入排查，发现问题根源在于 Kubernetes 持久化卷(PV)和持久化卷声明(PVC)的保留机制：

数据残留问题：虽然用户执行了 Helm uninstall 操作，但由于 PVC 的保护机制，MySQL 的数据卷并未被真正删除。当重新安装时，新实例会挂载到旧的持久化卷上，导致系统检测到"已有数据"而触发迁移流程。
Helm 清理不彻底：对比分析发现，Grafana 的 PVC 带有 Helm 特定的注解(如 meta.helm.sh/release-name)，这使得 Helm 能够正确管理其生命周期；而 MySQL 的 PVC 缺少这些注解，导致 Helm 无法在卸载时正确处理。
首次启动异常：有迹象表明，容器可能在第一次启动过程中被意外终止，导致数据库初始化不完整，但后续启动时却连接到了部分初始化的数据库。

对于遇到此问题的用户，可以采取以下步骤恢复：

手动删除遗留的 PVC 和 PV：

kubectl delete pvc devlake-mysql-data-devlake-mysql-0 -n devlake
kubectl delete pv <对应的PV名称>

重新安装 Helm chart：

helm install devlake devlake/devlake --version=1.0.1-beta9 \
  --set lake.encryptionSecret.secret=$ENCRYPTION_SECRET \
  -n devlake

从架构角度考虑，建议对 Helm chart 进行以下改进：

这个问题揭示了 Kubernetes 持久化存储管理的几个重要方面：

PVC 保护机制：Kubernetes 默认会为 PVC 添加 protection finalizer，防止意外删除。这是数据安全的重要保障，但也可能导致资源残留。
Helm 资源管理：Helm 通过特定的注解和标签来跟踪其创建的资源，缺少这些元数据会导致 Helm 无法正确管理资源生命周期。
有状态应用部署：数据库等有状态应用的部署需要特别考虑持久化数据的生命周期管理，这与无状态应用的部署有本质区别。