Milvus项目中JSON路径索引创建超时问题的分析与解决

2025-05-04 14:35:24作者：苗圣禹Peter

Milvus is a high-performance, cloud-native vector database built for scalable vector ANN search

项目地址：https://gitcode.com/GitHub_Trending/mi/milvus

问题背景

在Milvus数据库的最新版本中，开发团队发现了一个与JSON路径索引创建相关的性能问题。当用户尝试在包含多种JSON数据分布类型的集合上创建索引时，系统会出现创建索引超时的情况。这个问题在2.5版本和master分支中均有出现，影响了JSON路径索引功能的正常使用。

问题现象

用户报告称，在以下场景中会遇到索引创建超时：

当集合中包含多种JSON数据分布类型时（如嵌套对象、数组、混合类型等）
当尝试创建多个JSON路径索引时
当索引路径指向不存在的JSON字段或数组索引越界时

典型的错误表现为创建索引操作在120秒后超时，并返回"create index json_index timeout in 120s"的错误信息。

技术分析

经过深入分析，开发团队发现问题的根本原因在于simdjson库的错误处理机制。当JSON路径不存在于某些文档中时，simdjson会返回INVALID_JSON_POINTER错误码，而Milvus的索引构建逻辑没有正确处理这种情况，导致索引构建过程失败。

具体来说，问题出现在以下几种情况：

当JSON路径指向的字段在某些文档中不存在时
当JSON路径尝试访问数组越界的位置时（如my_json['a'][6]）
当JSON文档结构复杂且多样化时

解决方案

开发团队通过以下方式解决了这个问题：

simdjson库升级：更新到最新版本的simdjson库，该版本提供了更完善的错误码体系，能够更好地区分不同类型的JSON解析错误。
错误处理增强：在索引构建逻辑中增加了对INVALID_JSON_POINTER等错误码的专门处理，确保当遇到不存在的JSON路径时能够优雅地跳过而非失败。
性能优化：针对复杂JSON结构的索引构建进行了性能优化，减少了处理时间。

验证结果

在修复后的版本中，开发团队进行了全面的测试验证：

基础JSON路径索引创建验证通过
多种JSON数据分布混合场景下索引创建正常
复杂嵌套结构和数组访问的索引创建测试通过
性能测试显示索引创建时间在合理范围内

最佳实践建议

基于这次问题的解决经验，我们建议Milvus用户在使用JSON路径索引时注意以下几点：

数据规范化：尽量保持JSON文档结构的统一性，避免过多的异构结构。
索引设计：仔细规划需要创建的JSON路径索引，避免创建不必要的索引。
版本选择：使用已修复该问题的Milvus版本（2.5-20250313-33e9db15-amd64及之后版本）。
监控设置：对于大型集合的索引创建，适当调整超时设置并监控执行情况。

总结

JSON路径索引是Milvus提供的一项重要功能，能够极大地增强对半结构化数据的查询能力。通过解决这个索引创建超时问题，Milvus团队进一步提升了系统的稳定性和可靠性。用户现在可以更自信地在各种JSON数据场景下使用路径索引功能，充分发挥Milvus在处理复杂数据结构方面的优势。

Milvus is a high-performance, cloud-native vector database built for scalable vector ANN search

项目地址：https://gitcode.com/GitHub_Trending/mi/milvus

登录后查看全文

热门内容推荐

1 编程实践项目探索指南：从零构建技术能力体系 2 技术解构式学习：从0到1构建你的编程知识体系 3 构建自己的技术世界：build-your-own-x项目的实践探索指南 4 解锁编程技能的实践之旅：从零构建你的技术世界 5 技术实践探索：从零开始构建核心系统的实践指南 6 亲手锻造技术引擎：从0到1构建核心系统的实践指南

最新内容推荐

还在为数字笔记抓狂？这款开源神器让手写批注效率提升300%Windows笔记本电池健康管理全指南：从根源解决电池损耗问题 gmx_MMPBSA分子间相互作用索引错误的深度诊断与解决如何高效获取教育资源？这款工具让教材下载效率提升80%视频元数据深度编辑：专业技巧与案例网盘直链下载技术解析与应用指南 5个突破瓶颈技巧：硬件优化工具让你的电脑性能提升30%7天精通流放之路智能规划：新手必备的角色构筑神器指南重构你的阅读体验：ReadCat打造无干扰沉浸式小说阅读环境如何一键安装HS2-HF Patch：终极Honey Select 2优化与汉化完整指南

项目优选

收起

deepin linux kernel

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

昇腾LLM分布式训练框架

CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体，本仓库为其提供可复用的 Skills 模块。