Milvus集群中Etcd节点崩溃恢复机制深度解析

2025-05-04 10:48:38作者：滕妙奇

Milvus is a high-performance, cloud-native vector database built for scalable vector ANN search

项目地址：https://gitcode.com/GitHub_Trending/mi/milvus

背景概述

在分布式向量数据库Milvus的集群部署中，Etcd作为关键元数据存储组件，其稳定性直接影响整个系统的可用性。近期在生产环境中发现，当Etcd集群所有节点同时被强制终止后，新创建的节点会出现持续崩溃重启(CrashLoopBackOff)现象，导致集群服务降级。

问题现象分析

通过日志分析发现，当五个Etcd节点同时被终止后，新创建的节点中有四个节点日志显示"the member has been permanently removed from the cluster"警告信息。这表明这些节点已被永久从集群中移除，但它们的持久化数据目录未被正确清理，导致节点无法以新成员身份重新加入集群。

技术原理剖析

Etcd作为强一致性的分布式键值存储，其集群成员管理遵循Raft共识算法。当多数节点同时宕机时，集群会进入不可用状态。根据Raft协议：

节点重启时会检查持久化的成员信息
如果发现自身已被集群移除，会拒绝启动并提示需要清理数据目录
只有保留完整数据的节点才能作为种子节点重建集群

解决方案实践

针对该问题，我们推荐以下恢复步骤：

部分节点存活场景

将StatefulSet副本数缩减为1，保留仍能正常运行的节点（通常是etcd-0）
删除其他节点的持久化卷声明(PVC)
逐步扩展副本数至3，让新节点以干净状态加入集群

完全崩溃场景

使用bbolt工具备份关键数据
完全重置StatefulSet并清理所有PVC
从单节点开始重建集群
恢复必要元数据

最佳实践建议

优雅停机：停止Milvus服务后再停止Etcd，确保元数据持久化
滚动重启：避免同时重启所有Etcd节点
监控配置：设置合理的存活探针和就绪探针
资源隔离：为Etcd节点分配专用存储卷
定期备份：对Etcd数据进行周期性快照备份

经验总结

分布式系统的稳定性不仅依赖于单个组件的可靠性，更取决于组件间的协调机制。Etcd作为Milvus的核心依赖，其运维需要特别注意：

理解Raft协议的基本原理
掌握StatefulSet的扩缩容特性
熟悉持久化存储的回收机制
建立完善的监控告警系统

通过本次故障分析，我们更深入地理解了Milvus与Etcd的协同工作机制，为生产环境运维积累了宝贵经验。

Milvus is a high-performance, cloud-native vector database built for scalable vector ANN search

项目地址：https://gitcode.com/GitHub_Trending/mi/milvus

登录后查看全文

热门内容推荐

1 编程实践项目探索指南：从零构建技术能力体系 2 技术解构式学习：从0到1构建你的编程知识体系 3 构建自己的技术世界：build-your-own-x项目的实践探索指南 4 解锁编程技能的实践之旅：从零构建你的技术世界 5 技术实践探索：从零开始构建核心系统的实践指南 6 亲手锻造技术引擎：从0到1构建核心系统的实践指南

最新内容推荐

AcFunDown视频下载工具完全指南还在为数字笔记抓狂？这款开源神器让手写批注效率提升300%Windows笔记本电池健康管理全指南：从根源解决电池损耗问题 gmx_MMPBSA分子间相互作用索引错误的深度诊断与解决 Axure RP 11 本地化方案：Mac中文界面优化与原型设计工具汉化全指南如何高效获取教育资源？这款工具让教材下载效率提升80%视频元数据深度编辑：专业技巧与案例网盘直链下载技术解析与应用指南如何用DeepSeek-R1推理模型提升复杂任务解决能力：完整指南 5个突破瓶颈技巧：硬件优化工具让你的电脑性能提升30%

项目优选

收起

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

deepin linux kernel

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

AscendNPU-IR是基于MLIR（Multi-Level Intermediate Representation）构建的，面向昇腾亲和算子编译时使用的中间表示，提供昇腾完备表达能力，通过编译优化提升昇腾AI处理器计算效率，支持通过生态框架使能昇腾AI处理器与深度调优

JiuwenSwarm 是一款基于openJiuwen开发的智能AI Agent，它能够将大语言模型的强大能力，通过你日常使用的各类通讯应用，直接延伸至你的指尖。

昇腾LLM分布式训练框架