Milvus集群升级过程中DNS解析问题的分析与解决

2025-05-04 15:42:55作者：余洋婵Anita

Milvus is a high-performance, cloud-native vector database built for scalable vector ANN search

项目地址：https://gitcode.com/GitHub_Trending/mi/milvus

问题背景

在Milvus数据库集群从2.5.4版本升级到2.5.7版本的过程中，用户遇到了数据协调器(datacoord)组件启动失败的问题。具体表现为datacoord无法解析MinIO服务的DNS名称"milvus-minio"，导致整个升级过程受阻。这个问题在直接升级时出现，但有趣的是，如果先升级到2.5.5版本再升级到2.5.7版本，则不会出现此问题。

问题现象分析

当用户执行helm upgrade命令升级Milvus集群时，datacoord组件在启动过程中抛出了DNS解析错误。从日志中可以清楚地看到，datacoord无法解析"milvus-minio"这个服务名称，导致无法连接到MinIO对象存储服务。由于datacoord是Milvus集群中负责数据管理的关键组件，它的启动失败进而导致了数据节点(datanodes)、查询节点(querynodes)和查询协调器(querycoords)等一系列依赖组件都无法正常启动。

根本原因探究

经过深入分析，这个问题可能由以下几个因素导致：

Kubernetes DNS服务异常：CoreDNS或其他DNS服务可能出现了短暂的不可用状态，导致服务名称解析失败。
服务发现延迟：在集群升级过程中，服务注册可能存在一定的延迟，datacoord启动时MinIO服务尚未完全注册到DNS中。
网络策略限制：可能存在网络策略阻止了datacoord与DNS服务或MinIO服务之间的通信。
Helm升级顺序问题：直接升级时某些依赖组件的启动顺序可能存在问题，而分步升级(2.5.4→2.5.5→2.5.7)则避免了这个问题。

解决方案与建议

针对这个问题，我们建议采取以下解决方案：

检查DNS服务状态：
- 确认CoreDNS或其他DNS服务正常运行
- 检查DNS服务的日志，排查可能的错误
- 测试集群内DNS解析功能是否正常
验证服务发现机制：
- 确认MinIO服务已正确创建并注册
- 检查服务端点(endpoints)是否包含正确的Pod IP
调整升级策略：
- 采用分阶段升级策略，先升级到中间版本(如2.5.5)，再升级到目标版本
- 在升级命令中添加适当等待时间，确保各组件完全就绪
网络策略检查：
- 确认没有网络策略阻止必要的通信
- 检查防火墙规则，确保DNS查询和组件间通信不受限制

最佳实践建议

为了避免类似问题，我们建议在Milvus集群升级时遵循以下最佳实践：

预先验证环境：
- 在升级前验证DNS服务和网络连接性
- 确保所有依赖服务(如MinIO、etcd等)正常运行
采用渐进式升级：
- 对于大版本跨度升级，考虑分阶段进行
- 在每个阶段完成后验证系统稳定性
监控升级过程：
- 实时监控各组件启动状态
- 准备回滚方案以便快速恢复服务
资源预留：
- 确保集群有足够资源处理升级过程
- 避免在系统高负载时执行升级操作

总结

Milvus集群升级过程中遇到的DNS解析问题是一个典型的分布式系统升级挑战。通过理解Kubernetes服务发现机制、DNS工作原理以及Milvus组件间的依赖关系，我们可以有效预防和解决这类问题。建议用户在升级前充分测试，采用合理的升级策略，并准备好监控和回滚方案，以确保业务连续性。

Milvus is a high-performance, cloud-native vector database built for scalable vector ANN search

项目地址：https://gitcode.com/GitHub_Trending/mi/milvus

登录后查看全文

热门内容推荐

1 编程实践项目探索指南：从零构建技术能力体系 2 技术解构式学习：从0到1构建你的编程知识体系 3 构建自己的技术世界：build-your-own-x项目的实践探索指南 4 解锁编程技能的实践之旅：从零构建你的技术世界 5 技术实践探索：从零开始构建核心系统的实践指南 6 亲手锻造技术引擎：从0到1构建核心系统的实践指南

项目优选

收起

deepin linux kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

昇腾LLM分布式训练框架

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

Oohos_react_native

React Native鸿蒙化仓库