Milvus流式节点长时间未写入数据后查询卡顿问题解析

2025-05-04 12:52:11作者：邵娇湘

Milvus is a high-performance, cloud-native vector database built for scalable vector ANN search

项目地址：https://gitcode.com/GitHub_Trending/mi/milvus

问题背景

在Milvus分布式向量数据库的集群部署环境中，当使用流式节点(streamingNode)配合Pulsar消息队列时，发现了一个关键的性能问题。具体表现为：当某个集合(collection)长时间没有新数据写入后，如果此时加载该集合并执行查询操作，系统会出现卡顿现象，查询请求无法正常完成。

问题现象分析

该问题在以下典型场景中复现：

创建一个新集合，插入数据后执行flush操作建立索引并加载集合
并发执行多种操作：数据插入、删除、flush、查询、搜索以及场景搜索测试
测试完成后，某些集合中仍保留有数据
当尝试加载这些长时间未写入的集合并执行查询时，系统出现卡顿

技术原理剖析

问题的根本原因与Milvus的WriteAheadBuffer(WAL)机制有关：

WriteAheadBuffer的过期机制：系统会定期清理WriteAheadBuffer以减少内存占用。当没有新的追加操作时，WAL不会将消息写入底层日志，而只是更新WriteAheadBuffer中的最后一条消息。
Catchup Scanner的读取机制：当Catchup Scanner读取到底层日志的最后一条消息，而WriteAheadBuffer又清理了底层日志的最后一条消息时，Scanner将无法追上WriteAheadBuffer的进度。
阻塞现象：这种情况下，Scanner的消费过程会被永久阻塞，直到有新的消息写入系统。

解决方案

针对这一问题，开发团队提出了两个关键修复措施：

保留关键TimeTick消息：修改WriteAheadBuffer的清理策略，确保不会清除最后一条已持久化的TimeTickMessage。在缓冲区中保留两条关键消息：最后一条已持久化的TimeTick消息和最新的(未持久化的)TimeTick消息。
处理StartAfter消费策略：考虑到订阅者可能采用StartAfter策略消费WAL日志，修复了Catchup Scanner在这种情况下无法看到最后一条TimeTick消息ID的问题，确保Scanner能够正确追上WriteAheadBuffer的进度。

影响与验证

该修复已在Milvus的master分支版本(master-20250417-511c4d37-amd64)中实现。经过测试验证，修复后系统在长时间未写入数据的集合上执行查询操作时不再出现卡顿现象，系统稳定性和可靠性得到了显著提升。

技术启示

这一问题的解决过程展示了分布式系统中WAL机制的重要性以及其潜在的性能陷阱。在实际应用中，需要特别注意：

消息队列的消费进度管理
缓冲区清理策略与系统一致性的平衡
长时间空闲状态下的系统行为处理

这些经验对于设计高可靠的分布式存储系统具有重要的参考价值。

Milvus is a high-performance, cloud-native vector database built for scalable vector ANN search

项目地址：https://gitcode.com/GitHub_Trending/mi/milvus

登录后查看全文

项目优选

收起

deepin linux kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

昇腾LLM分布式训练框架

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

Oohos_react_native

React Native鸿蒙化仓库