Milvus中JsonKeyStats功能的内存优化实践

2025-05-04 22:37:02作者：郁楠烈Hubert

A cloud-native vector database, storage for next generation AI applications

项目地址：https://gitcode.com/GitHub_Trending/mi/milvus

背景介绍

在Milvus 2.5版本中，当启用JsonKeyStats功能时，系统在进行并发数据插入操作时可能会出现内存溢出(OOM)问题，导致delegator组件被强制终止。这个问题主要发生在高并发写入场景下，特别是当系统配置了多个JSON字段时。

问题分析

内存增长机制

通过监控数据可以观察到，当启用JsonKeyStats功能时，系统内存呈现持续增长趋势。这主要是因为：

每个JSON字段都会生成对应的统计信息索引
在并发写入场景下，系统会创建大量"growing segment"(增长中的段)
原有的实现将排序统计和JSON键统计合并为一个任务处理

关键发现

技术团队通过对比测试发现：

禁用JsonKeyStats时，系统内存使用保持稳定
启用该功能后，内存使用会随着时间推移持续增长
当内存达到容器限制时，delegator组件会被OOM Killer终止

解决方案

任务拆分优化

核心优化措施是将排序统计和JSON键统计任务分离：

将原先合并处理的两个统计任务解耦
使它们能够独立执行，互不阻塞
减少任务间的依赖关系

内存管理建议

对于内存资源有限的部署环境，建议：

评估是否必须启用JsonKeyStats功能
如果内存资源紧张，可考虑禁用该功能
适当增加delegator组件的内存配额

后续优化方向

虽然任务拆分解决了主要问题，但团队仍在探索更深层次的优化：

改进JSON统计索引的构建效率
研究更高效的内存使用模式
优化统计任务的并发处理机制

实践建议

对于使用Milvus的开发者和运维人员：

在高并发写入场景下谨慎启用JsonKeyStats
密切监控系统内存使用情况
根据实际业务需求权衡功能启用与资源消耗
保持系统版本更新以获取最新优化

通过以上分析和优化，Milvus团队有效解决了JsonKeyStats功能在高并发场景下的内存问题，为大规模JSON数据处理提供了更稳定的支持。

A cloud-native vector database, storage for next generation AI applications

项目地址：https://gitcode.com/GitHub_Trending/mi/milvus

登录后查看全文

项目优选

收起

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

flutter_flutter

deepin linux kernel

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

ohos_react_native

React Native鸿蒙化仓库

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力

cangjie_compiler

仓颉编译器源码及 cjdb 调试工具。