Milvus项目中JSON字段查询条件错误问题分析与修复

2025-05-04 08:40:10作者：蔡丛锟

问题背景

在Milvus数据库2.5版本中，当使用JSON字段进行复合条件查询时，发现了一个严重的查询结果错误问题。具体表现为：当查询条件包含JSON字段比较和存在性检查的组合条件时，系统返回了不符合预期的结果。

问题现象

用户在使用Milvus集群时，构建了一个包含5百万条记录的集合，其中包含两个JSON类型的字段：

json_1：包含"id"键的JSON对象
json_2：部分为空JSON对象的字段

在执行并发更新操作后，使用复合查询条件(json_2["key_5"] >= "5000000") and (exists json_1["id"])时，系统错误地返回了大量记录，而实际上应该返回0条记录。更严重的是，返回结果中的json_1字段并不包含查询条件中要求的"id"键。

技术分析

经过开发团队深入排查，发现问题的根本原因在于查询执行引擎处理联合表达式时的游标管理问题。具体来说：

游标错位问题：在处理联合表达式时，系统内部移动游标的逻辑存在缺陷，导致不同条件判断时的行数据没有正确对齐。
表达式执行顺序影响：当同时包含JSON字段比较和存在性检查时，执行引擎在处理这些条件时没有保持正确的一致性视图。
数据验证缺失：查询结果没有经过充分的验证，导致不符合条件的记录被错误返回。

解决方案

开发团队针对此问题实施了以下修复措施：

游标管理优化：重新设计了联合表达式执行时的游标管理逻辑，确保在处理复合条件时数据行能够正确对齐。
结果验证增强：增加了查询结果的验证步骤，确保返回的记录确实满足所有查询条件。
执行流程改进：优化了表达式执行流程，保证不同条件的判断基于相同的数据视图。

影响范围

该问题影响以下场景：

使用JSON字段的复合条件查询
同时包含比较操作和存在性检查的查询
大规模数据集的查询操作

修复版本

该问题已在Milvus 2.5-20250423-d5977ec5-amd64版本中得到修复。建议所有使用JSON字段复合查询功能的用户升级到此版本或更高版本。

最佳实践

为避免类似问题，建议用户：

对于关键业务查询，增加结果验证逻辑
在升级版本后，对关键查询进行回归测试
对于复杂的JSON查询，考虑分步执行并验证中间结果

总结

Milvus团队快速响应并修复了这个JSON查询的关键问题，体现了对数据一致性的高度重视。这次修复不仅解决了特定的查询错误，还增强了查询引擎的健壮性，为后续更复杂的JSON操作打下了坚实基础。

milvus

Milvus is a high-performance, cloud-native vector database built for scalable vector ANN search

项目地址：https://gitcode.com/GitHub_Trending/mi/milvus

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。