Kubernetes kubeadm 集群从堆叠式 etcd 迁移到外部 etcd 的技术方案

2025-06-18 18:28:41作者：盛欣凯Ernestine

在 Kubernetes 生产环境中，随着集群规模的扩大，将 etcd 从堆叠式（stacked）架构迁移到外部独立集群是常见的优化需求。本文将详细介绍在 Kubernetes v1.30.2 版本中使用 kubeadm 部署的集群如何完成这一关键架构变更。

迁移背景与挑战

堆叠式 etcd 架构中，etcd 实例与 Kubernetes 控制平面组件（如 API Server）共同部署在同一节点上。这种架构虽然部署简单，但随着集群规模增长会面临以下问题：

资源竞争：etcd 与控制平面组件共享节点资源
扩展性限制：etcd 集群规模受限于控制平面节点数量
维护复杂性：升级或维护 etcd 会影响控制平面可用性

迁移到外部 etcd 集群可以解决这些问题，但需要确保迁移过程中不丢失关键数据，保持集群服务的连续性。

迁移前准备

环境检查

确认当前 Kubernetes 版本为 v1.30.2
检查 etcd 数据健康状态
准备与现有集群 etcd 版本兼容的外部 etcd 集群

资源准备

准备至少3个专用节点用于外部 etcd 集群
确保网络连通性：控制平面节点可访问新 etcd 节点
准备足够的存储空间存放 etcd 数据快照

详细迁移步骤

第一步：创建 etcd 数据快照

在任一控制平面节点执行：

# 获取当前 etcd Pod 名称
ETCD_POD=$(kubectl get pods -n kube-system | grep etcd | awk '{print $1}')

# 创建 etcd 快照
kubectl exec -n kube-system $ETCD_POD -- \
  etcdctl --endpoints=https://127.0.0.1:2379 \
  --cacert=/etc/kubernetes/pki/etcd/ca.crt \
  --cert=/etc/kubernetes/pki/etcd/server.crt \
  --key=/etc/kubernetes/pki/etcd/server.key \
  snapshot save /var/lib/etcd/snapshot.db

第二步：部署外部 etcd 集群

在新节点上安装与当前版本兼容的 etcd
使用快照文件初始化新 etcd 集群
验证新集群数据完整性和成员健康状态

第三步：修改 kubeadm 配置

编辑 kube-system 命名空间中的 kubeadm-config ConfigMap：

kubectl edit cm kubeadm-config -n kube-system

更新 etcd 配置部分，替换为外部 etcd 集群的连接信息。

第四步：更新控制平面组件

逐个停止控制平面节点的 kubelet 服务
修改 /etc/kubernetes/manifests/kube-apiserver.yaml 文件，更新 etcd 服务端点
移除本地 etcd 的静态 Pod 清单文件
重启 kubelet 服务

第五步：验证迁移结果

检查所有控制平面组件状态
验证 API Server 与新 etcd 集群的连接
测试集群基本功能（部署应用、扩缩容等）

迁移后检查清单

确认所有控制平面组件处于健康状态
验证 etcd 集群成员列表和领导状态
检查核心 Kubernetes 资源（如 Nodes、Pods）是否可正常访问
监控系统关键指标（API 延迟、etcd 存储增长等）

风险缓解措施

在非生产环境充分测试迁移流程
准备完整的回滚方案（包括 etcd 快照和控制平面备份）
选择业务低峰期执行迁移操作
考虑分阶段迁移（如先迁移部分控制平面节点）

通过以上严谨的步骤，可以安全地将 kubeadm 管理的 Kubernetes 集群从堆叠式 etcd 架构迁移到外部独立部署的 etcd 集群，同时保持服务的连续性和数据的完整性。

kubeadm

Aggregator for issues filed against kubeadm

项目地址：https://gitcode.com/gh_mirrors/ku/kubeadm

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

leetcode

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Java

RuoYi-Vue3

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Vue

1.37 K

781