Milvus数据库因ETCD性能问题导致意外停止的故障分析

2025-05-04 12:22:19作者：廉彬冶Miranda

问题背景

在Milvus 2.4.17版本的独立部署环境中，用户报告了数据库服务在正常使用过程中意外停止的问题。通过分析日志发现，该问题与ETCD服务的性能瓶颈密切相关。

故障现象

用户部署的Milvus standalone环境运行在CentOS系统上，配置为32核CPU和256GB内存。从日志中可以观察到ETCD操作出现严重延迟，例如一个简单的KV存储操作耗时超过7秒，这直接导致了Milvus服务的不稳定。

根本原因分析

深入分析日志和技术指标后，可以确定问题的核心在于存储I/O性能不足：

ETCD对存储性能的严苛要求：ETCD作为分布式键值存储，其共识算法和日志复制机制对磁盘I/O有极高要求，特别是对低延迟写入的敏感性。
磁盘性能测试结果：
- 平均IOPS为1263
- 99百分位延迟达到18.93毫秒
- 最大延迟高达710毫秒
- 磁盘利用率长期保持在95%以上
性能瓶颈表现：当ETCD无法及时处理请求时，Milvus会因为心跳超时或元数据操作失败而停止服务。

解决方案与优化建议

针对这一问题，我们建议采取以下措施：

存储硬件升级：
- 使用高性能SSD替代机械硬盘
- 确保磁盘的99百分位延迟低于10毫秒
- 建议IOPS保持在500以上
配置优化：
- 调整ETCD的选举超时和心跳间隔参数
- 为ETCD分配专用存储设备
- 考虑增加ETCD节点数提高可用性
监控与告警：
- 建立ETCD性能监控体系
- 设置操作延迟告警阈值
- 定期进行性能基准测试

经验总结

这次故障提醒我们，在部署Milvus等依赖ETCD的分布式系统时，必须特别关注存储子系统的性能表现。ETCD的性能直接影响整个系统的稳定性，而存储I/O往往是第一个出现瓶颈的环节。通过合理的硬件选型和配置优化，可以有效预防此类问题的发生。

对于生产环境，建议在部署前进行全面的性能基准测试，确保基础设施能够满足系统的性能需求，特别是对于ETCD这样的关键组件。

milvus

Milvus is a high-performance, cloud-native vector database built for scalable vector ANN search

项目地址：https://gitcode.com/GitHub_Trending/mi/milvus

登录后查看全文

项目优选

收起

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本仓将收集和展示高质量的仓颉示例代码，欢迎大家投稿，让全世界看到您的妙趣设计，也让更多人通过您的编码理解和喜爱仓颉语言。

830

6.18 K

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

AtomGit CLI （ag cli），AtomGit 命令行工具，参考 GitHub CLI (gh) 开发。目前 atomgit-cli 项目已在 AtomCode 的 Coding Plan 项目列表中

cann-learning-hub

CANN 学习中心仓，支持在线互动运行、边学边练，提供教程、示例与优化方案，一站式助力昇腾开发者快速上手。

Milvus数据库因ETCD性能问题导致意外停止的故障分析

问题背景

故障现象

根本原因分析

解决方案与优化建议

经验总结

热门内容推荐

最新内容推荐

项目优选

Milvus数据库因ETCD性能问题导致意外停止的故障分析

问题背景

故障现象

根本原因分析

解决方案与优化建议

经验总结

相关内容推荐

热门内容推荐

最新内容推荐

项目优选