Milvus项目中JSON字段负数值过滤问题的分析与解决

2025-05-04 19:54:23作者：房伟宁

背景介绍

在Milvus这个开源的向量数据库中，JSON字段的支持为用户提供了灵活的数据存储和查询能力。然而，在实际使用过程中，开发团队发现了一个关键问题：当尝试通过相等表达式(==)过滤JSON字段中的负数值时，系统无法正确返回预期结果。这个问题不仅影响了基础功能的可用性，也对需要精确数值匹配的业务场景造成了困扰。

问题现象

在测试过程中，开发人员构建了一个包含各种边界值的测试案例，其中包括：

各种整数类型的最小/最大值(int8/int16/int32/int64)
浮点数的边界值(float32/float64)
包含这些值的数组

测试发现以下两类问题：

当禁用jsonStats功能时，系统无法正确过滤某些特定的最小负数值，例如int32的最小值-2147483648
当启用jsonStats功能时，系统无法正确过滤一般的负数值，例如简单的-1

技术分析

经过深入排查，发现问题根源在于数值类型的转换处理过程中。具体表现为：

二进制存储转换问题：在将JSON值转换为二进制格式存储时，负数值被错误地移除或转换。这是由于在转换过程中，系统未能正确处理有符号整数的符号位。
无符号/有符号整数转换问题：特别是在jsonStats功能启用时，系统在内部将数值从uint(无符号整数)转换为int(有符号整数)的过程中出现了错误，导致负数值的符号信息丢失。
边界值处理缺陷：对于各种数据类型的边界值(特别是最小负数值)，系统没有进行特殊处理，导致这些极值在过滤时无法正确匹配。

解决方案

开发团队针对这一问题实施了以下修复措施：

修正数值转换逻辑：确保在二进制格式转换过程中，完整保留数值的符号信息。对于有符号整数类型，严格保持其原始值不变。
完善类型转换处理：在jsonStats功能中，修正了从uint到int的转换逻辑，确保符号位的正确处理，防止负数值被错误地转换为正数。
增强边界值测试：在修复代码的同时，增加了对各种数据类型边界值的测试用例，包括：
- 各整数类型的最小/最大值
- 浮点数的极端值
- 包含这些值的数组元素的过滤