Milvus内存泄漏问题分析与解决方案

2025-05-04 11:45:01作者：乔或婵

问题背景

在Milvus 2.5版本中，用户报告了一个关键的内存管理问题：当数据加载失败后，虽然相关数据段(segment)已被释放，但Milvus standalone实例的内存占用并未相应降低。这一问题在基准测试场景下尤为明显，影响了系统的稳定性和资源利用率。

问题现象

测试环境配置如下：

Milvus版本：2.5-20250407-0db5e0c4-amd64
部署模式：standalone
消息队列：rocksmq
测试数据集：2000万条记录

测试过程中，当尝试加载包含多种索引类型(包括IVF_SQ8、SPARSE_INVERTED_INDEX、BITMAP等)的大规模数据集时，加载操作失败。监控数据显示：

内存占用峰值达到约40GB
加载失败后，内存未释放，持续保持高水位
磁盘检查确认索引文件未被正确清理

技术分析

根本原因

深入分析表明，该问题源于两个关键因素：

加载超时机制缺陷：系统在加载大型数据集时，默认的超时设置不足，导致加载过程被异常中断，但相关资源未完全释放。
goroutine泄漏：监控发现存在大量未完成的LoadSegment goroutine，这些goroutine持有内存引用，阻止了垃圾回收机制的正常工作。

内存管理机制

Milvus使用jemalloc作为内存分配器，其特性包括：

内存池机制提高分配效率
延迟释放策略优化性能
需要显式触发才能将内存返还操作系统

在正常情况下，jemalloc会通过后台线程逐步释放未使用内存。但在本案例中，由于资源泄漏，这些机制未能生效。

解决方案

经过团队验证，以下措施可有效解决问题：

调整超时参数：

queryCoord:
  loadTimeoutSeconds: 1

优化资源清理流程：

确保加载失败时完整执行清理逻辑
修复goroutine泄漏问题
增强索引文件的释放机制

验证结果

实施修复后，测试显示：

内存占用从40GB峰值迅速回落
系统资源利用率恢复正常水平
后续操作不受之前失败加载的影响

最佳实践建议

对于Milvus用户，特别是处理大规模数据的场景，建议：

根据数据规模合理配置加载超时参数
定期监控内存使用情况
在性能测试前进行充分的环境验证
考虑使用最新稳定版本，以获取最佳的内存管理优化

总结

本次内存泄漏问题的解决展示了Milvus团队对系统稳定性的持续优化。通过深入分析底层机制，团队不仅修复了特定问题，还增强了系统的整体健壮性。对于用户而言，理解这些内存管理特性有助于更好地规划和运维Milvus集群。

milvus

Milvus is a high-performance, cloud-native vector database built for scalable vector ANN search

项目地址：https://gitcode.com/GitHub_Trending/mi/milvus

登录后查看全文

项目优选

收起

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

468

461

pytorch

Ascend Extension for PyTorch

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体，本仓库为其提供可复用的 Skills 模块。

Python

1.03 K

646