Milvus 集群环境下启用全量mmap参数导致加载OOM问题分析

2025-05-04 21:02:58作者：邵娇湘

Milvus is a high-performance, cloud-native vector database built for scalable vector ANN search

项目地址：https://gitcode.com/GitHub_Trending/mi/milvus

问题背景

在Milvus 2.5版本集群环境中，当启用所有mmap(memory-mapped files)参数时，尝试加载包含多种向量类型和索引的集合(collection)时会出现内存不足(OOM)的错误。该问题在基准测试场景下尤为明显，涉及20M条包含多种向量类型的数据集。

问题现象

在特定配置下创建并加载一个包含以下特征的集合时会出现OOM：

包含多种向量字段：128维float向量、768维float向量、稀疏float向量、256维bfloat16向量
多种索引类型：HNSW、DISKANN、SPARSE_INVERTED_INDEX、IVF_SQ8、INVERTED
数据规模达到20M条记录
查询节点配置了32GB内存并启用了全量mmap参数

技术分析

mmap机制在Milvus中的应用

mmap(内存映射文件)是Milvus中用于优化内存使用的重要机制，它允许将磁盘文件直接映射到进程的地址空间，从而减少实际内存占用。在Milvus中，可以针对不同类型的字段和索引分别启用mmap：

向量字段mmap
向量索引mmap
标量字段mmap
标量索引mmap

问题根源

通过分析发现，导致OOM的主要原因有：

未索引的growing segment过多：在2.5版本中，由于增加了统计任务，导致产生了更多的growing segment(未索引段)，这些段默认未启用mmap，会消耗大量实际内存。
内存配置不足：虽然启用了mmap，但DiskANN等索引类型仍会消耗一定量的实际内存，特别是在处理大规模数据集时。
加载顺序问题：现有实现中，段的加载顺序可能不是最优的，导致内存峰值过高。

解决方案

针对该问题，社区采取了以下解决方案：

启用growing segment的mmap：通过配置queryNode.mmap.growingSegment参数为true，可以显著减少growing segment的内存占用。
优化内存配置：根据实际数据规模和索引类型，适当增加查询节点的内存限制。对于20M级别的数据集，建议配置至少32GB内存。
调整加载顺序：优化段的加载顺序，优先加载大尺寸段，可以平滑内存使用曲线，避免瞬时峰值。
版本回退：在2.5版本中，发现某个PR(#40873)是导致该问题的直接原因，暂时回退该变更可以解决问题。

最佳实践建议

对于需要在生产环境中使用mmap功能的用户，建议：

根据数据规模合理配置节点内存，特别是查询节点
完整启用所有mmap参数，包括growing segment的mmap
监控内存使用情况，特别是加载过程中的内存峰值
对于特别大的数据集，考虑分批次加载或增加节点资源
关注Milvus版本更新，及时获取相关修复

总结

Milvus中的mmap机制虽然能有效降低内存占用，但在处理大规模数据集和多种索引类型时仍需谨慎配置。通过全面启用mmap参数、优化资源分配和加载策略，可以有效避免加载过程中的OOM问题，确保系统稳定运行。

Milvus is a high-performance, cloud-native vector database built for scalable vector ANN search

项目地址：https://gitcode.com/GitHub_Trending/mi/milvus

登录后查看全文

项目优选

收起

deepin linux kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

昇腾LLM分布式训练框架

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

JiuwenSwarm 是一款基于openJiuwen开发的智能AI Agent，它能够将大语言模型的强大能力，通过你日常使用的各类通讯应用，直接延伸至你的指尖。