Milvus集群通过Ingress连接的问题分析与解决方案

2025-05-04 23:23:00作者：姚月梅Lane

A cloud-native vector database, storage for next generation AI applications

项目地址：https://gitcode.com/GitHub_Trending/mi/milvus

背景介绍

在Kubernetes环境中部署Milvus集群时，经常会遇到需要通过Ingress暴露服务给外部访问的需求。特别是在混合架构中，当Milvus的协调节点(coordinator)运行在虚拟机(VM)上，而数据节点运行在Kubernetes集群内时，如何正确配置Ingress成为关键问题。

问题现象

用户在使用Nginx Ingress暴露Milvus Proxy服务时遇到了连接问题。具体表现为：

协调节点无法连接到Kubernetes集群内的Proxy节点
错误日志显示"http2: frame too large"和"context deadline exceeded"
虽然Ingress配置了GRPC支持，但直接访问返回404错误

配置分析

从用户提供的配置中，我们可以看到几个关键点：

Ingress配置了GRPC协议支持，并设置了100MB的GRPC最大消息大小
服务暴露了两个端口：19530(默认Milvus端口)和443(HTTPS端口)
Milvus配置文件中将内部端口设置为443，外部端口设置为19530

根本原因

经过分析，问题可能由以下几个因素导致：

消息大小限制不足：虽然配置了100MB的GRPC最大消息大小，但实际流量可能超过这个限制
端口映射混乱：服务暴露了多个端口，但Ingress和后端服务的端口映射关系不清晰
协议支持不完整：GRPC需要完整的HTTP/2支持，而某些Ingress配置可能没有完全启用

解决方案

针对上述问题，建议采取以下解决方案：

调整消息大小限制：
- 将nginx.ingress.kubernetes.io/proxy-body-size从4MB增加到100MB或更大
- 确保nginx.ingress.kubernetes.io/grpc-max-size也设置为足够大的值
简化端口配置：
- 统一使用19530端口，避免多端口带来的复杂性
- 确保Ingress和后端服务的端口映射一致
完善协议支持：
- 确认Nginx Ingress控制器完全支持HTTP/2
- 检查TLS配置是否正确，因为GRPC over HTTP/2通常需要TLS
调试建议：
- 使用GRPC客户端工具直接测试Ingress端点
- 检查Ingress控制器的日志获取更多错误信息
- 考虑暂时使用NodePort或LoadBalancer类型服务进行测试，排除Ingress配置问题

最佳实践

在Kubernetes中通过Ingress暴露Milvus服务时，建议遵循以下最佳实践：

保持配置简单，避免不必要的端口映射
为GRPC流量设置足够大的消息大小限制
使用专门的GRPC Ingress控制器（如grpc-web）可能获得更好的兼容性
考虑使用Service Mesh（如Istio）来管理GRPC流量
对于生产环境，建议使用专用的LoadBalancer而不是Ingress来暴露Milvus服务

总结

在Kubernetes环境中通过Ingress暴露Milvus服务需要特别注意GRPC协议的特殊要求。正确的消息大小限制、清晰的端口映射和完整的协议支持是确保连接成功的关键因素。通过合理的配置和调试，可以解决大多数连接问题，实现稳定可靠的Milvus集群访问。

A cloud-native vector database, storage for next generation AI applications

项目地址：https://gitcode.com/GitHub_Trending/mi/milvus

登录后查看全文

热门内容推荐

1 【亲测免费】开源项目 `build-your-own-x` 使用指南 2 【亲测免费】探索科技之旅：《Build Your Own X》项目详解 3 GitHub_Trending/bu/build-your-own-x自动化：CI/CD流程在自制项目中的应用 4 从零打造智能家居系统：用build-your-own-x实现家庭自动化

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

flutter_flutter

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

昇腾LLM分布式训练框架

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统