Milvus项目中稀疏向量搜索异常问题分析与解决

2025-05-04 12:22:05作者：齐冠琰

A cloud-native vector database, storage for next generation AI applications

项目地址：https://gitcode.com/GitHub_Trending/mi/milvus

问题背景

在Milvus分布式向量数据库的最新版本测试中，发现了一个与稀疏向量搜索相关的严重问题。该问题在多种混沌测试场景下被触发，包括etcd follower节点pod kill、minio pod kill以及proxy pod failure等测试场景。问题表现为在进行稀疏向量搜索时，系统抛出"Brute force search fail: type conflict in json"或"invalid args: avgdl must be supplied during searching"等错误。

问题现象

测试人员在以下操作流程中观察到了异常现象：

创建包含稀疏向量字段的集合
成功插入数据并建立索引
执行常规向量搜索操作正常
但当执行稀疏向量字段的BM25搜索时，系统抛出异常

错误信息主要分为两类：

类型冲突错误："Brute force search fail: type conflict in json"
参数缺失错误："invalid args: avgdl must be supplied during searching"

技术分析

通过对错误日志和代码的深入分析，发现问题根源在于稀疏向量索引的构建和搜索过程中参数处理不当。

类型冲突问题

当系统尝试执行稀疏向量搜索时，在SearchBruteForce.cpp文件的221行发生了JSON类型冲突。这表明在将搜索参数序列化为JSON或从JSON反序列化时，某些字段的类型与预期不符。这种类型不匹配导致搜索执行流程中断。

参数缺失问题

另一个错误提示"avgdl must be supplied during searching"表明，在执行BM25算法时缺少必要的avgdl参数。avgdl是BM25算法中的一个重要参数，表示文档集合中平均文档长度，对相关性评分计算至关重要。

问题影响

该问题直接影响以下功能：

稀疏向量字段的搜索功能完全不可用
涉及BM25算法的文本相关性搜索失败
在混沌测试场景下问题更容易复现，表明与系统稳定性相关

解决方案

开发团队针对该问题实施了以下修复措施：

完善稀疏向量索引构建时的参数校验机制
确保BM25搜索时所有必需参数正确传递
修复JSON序列化/反序列化过程中的类型处理逻辑
增加错误处理机制，提供更清晰的错误提示

验证结果

修复后的版本通过了严格的测试验证：

在各种混沌测试场景下稀疏向量搜索功能正常
系统在节点故障恢复后能够正确处理稀疏向量搜索请求
BM25算法相关参数能够正确传递和处理

技术启示

通过这个问题的解决，我们获得了以下技术经验：

分布式系统中组件故障可能导致参数传递异常，需要完善的错误处理
算法特定参数需要在系统设计时充分考虑传递机制
类型安全在序列化/反序列化过程中至关重要
混沌测试是发现分布式系统潜在问题的有效手段

总结

Milvus团队通过深入分析稀疏向量搜索异常的根本原因，不仅解决了当前问题，还完善了相关机制，提高了系统在异常条件下的健壮性。这次问题的解决也体现了Milvus团队对系统稳定性和功能完整性的高度重视。

A cloud-native vector database, storage for next generation AI applications

项目地址：https://gitcode.com/GitHub_Trending/mi/milvus

登录后查看全文

最新内容推荐

Degrees of Lewdity中文汉化终极指南：零基础玩家必看的完整教程 Unity游戏翻译神器：XUnity Auto Translator 完整使用指南 PythonWin7终极指南：在Windows 7上轻松安装Python 3.9+终极macOS键盘定制指南：用Karabiner-Elements提升10倍效率 Pandas数据分析实战指南：从零基础到数据处理高手 Qwen3-235B-FP8震撼升级：256K上下文+22B激活参数 7步搞定机械键盘PCB设计：从零开始打造你的专属键盘终极WeMod专业版解锁指南：3步免费获取完整高级功能 DeepSeek-R1-Distill-Qwen-32B技术揭秘：小模型如何实现大模型性能突破音频修复终极指南：让每一段受损声音重获新生

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

昇腾LLM分布式训练框架

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

flutter_flutter

ohos_react_native

React Native鸿蒙化仓库

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力