Milvus集群环境下Proxy组件内存管理问题分析与解决方案

2025-05-04 12:07:50作者：宣利权Counsellor

问题背景

在Milvus 2.5版本的集群部署环境中，用户在进行大规模并发DQL（数据查询语言）测试时发现了一个值得关注的现象：Proxy组件在执行完测试后，内存使用量维持在1.2GB以上，未能回落到正常水平。这一现象在多次测试中均能复现，引起了开发团队的重视。

现象描述

测试环境配置如下：

部署模式：集群模式
消息队列：Pulsar
数据集规模：2000万条
并发参数：30个并发客户端持续运行12小时
测试类型：混合搜索、查询和搜索操作

测试完成后，Proxy组件内存使用曲线显示：

在测试初期内存快速上升
测试过程中内存稳定在较高水平
测试结束后内存未如预期下降，而是保持在1.2GB以上

技术分析

开发团队针对此问题进行了多方面的深入调查：

内存泄漏排查

首先怀疑是否存在内存泄漏问题，团队采取了以下验证措施：

使用AddressSanitizer（ASAN）工具进行内存泄漏检测
添加jemalloc内存分配统计日志
分析内存分配和释放模式

验证结果表明：

ASAN未检测到典型的内存泄漏模式
jemalloc统计显示已正确释放未使用的内存空间
内存分配器确实将空闲内存归还给了系统

操作系统内存管理机制

进一步分析发现，问题的根源可能与操作系统层面的内存管理策略有关：

Linux内核的内存回收机制相对保守
当系统内存充足时，内核倾向于保留"inactive"内存而不立即回收
这种策略虽然提高了性能，但会导致内存使用量显示偏高

对比验证

团队进行了对比测试：

将Proxy内存限制设置为1GB后，问题不再出现
这表明在内存受限环境下，系统会采取更积极的内存回收策略

解决方案

基于以上分析，开发团队提出了几种可行的解决方案：

推荐方案：合理设置内存限制

在生产环境中，建议为Proxy组件设置适当的内存限制：

根据负载特点确定合理的内存上限
通过Kubernetes资源限制实现
这种方案简单有效，已在测试中得到验证

进阶调优方案

对于需要更精细控制的环境，可以考虑：

调整系统内存回收参数：
```
sysctl -w vm.vfs_cache_pressure=200
```
禁用MADV_FREE特性（需评估性能影响）
这些调整可以促使系统更积极地回收缓存内存

技术原理深入

Jemalloc与Linux内存管理

现代内存分配器（如jemalloc）与操作系统之间存在复杂的交互：

Jemalloc会将空闲内存通过madvise系统调用告知内核
Linux内核根据当前内存压力决定是否立即回收
在内存充足时，内核可能延迟回收以提高性能

Cgroup内存统计

容器环境下的内存统计有其特殊性：

Cgroup统计包含多种内存类型（active/inactive）
显示的内存使用量可能包含可回收但未立即回收的部分
这解释了为什么工具显示内存已释放而使用量仍高

最佳实践建议

基于此次问题的经验，我们建议Milvus用户：

生产环境务必设置合理的内存限制
监控内存使用趋势而非绝对值
性能测试时要考虑内存回收的时间因素
不同版本的内核可能有不同的内存管理行为

结论

Milvus Proxy组件的高内存占用现象并非真正的内存泄漏，而是现代内存管理机制下的正常表现。通过合理配置资源限制，可以有效地控制内存使用量。这一案例也提醒我们，在云原生环境下，理解应用内存行为需要综合考虑应用层、运行时和操作系统多个层面的交互。

milvus

A cloud-native vector database, storage for next generation AI applications

项目地址：https://gitcode.com/GitHub_Trending/mi/milvus

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

pytorch

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

TorchAir 支持用户基于PyTorch框架和torch_npu插件在昇腾NPU上使用图模式进行推理。

本仓将收集和展示高质量的仓颉示例代码，欢迎大家投稿，让全世界看到您的妙趣设计，也让更多人通过您的编码理解和喜爱仓颉语言。

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

ascend-transformer-boost

本项目是CANN提供的是一款高效、可靠的Transformer加速库，基于华为Ascend AI处理器，提供Transformer定制化场景的高性能融合算子。