Marqo 2.16.0版本发布：支持非结构化索引文档更新与磁盘使用优化

2025-06-12 13:19:14作者：侯霆垣

项目简介

Marqo是一个开源的向量搜索引擎，它结合了传统搜索引擎和现代机器学习模型的优势，能够高效地处理文本、图像等多模态数据的搜索需求。Marqo的核心特点是提供了简单易用的API接口，让开发者可以快速构建基于语义理解的搜索应用。

2.16.0版本重要更新

非结构化索引文档更新功能

在2.16.0版本中，Marqo引入了一个备受期待的功能：对非结构化索引的文档更新支持。这一功能允许开发者在不重新索引整个文档的情况下，修改现有非向量字段或添加新字段。

技术实现解析： Marqo团队通过优化底层存储结构和索引机制，实现了对非结构化索引的增量更新能力。当调用update_documents接口时，系统会智能识别变更的字段，仅更新受影响的部分，而保留其他未修改的内容，包括预先计算好的向量表示。

使用场景示例：假设你有一个电商产品索引，其中包含产品描述、价格等字段。当某个产品的价格发生变化时，现在只需调用更新接口修改价格字段，而不需要重新处理整个产品文档的文本和图像向量化过程，大大提高了系统效率。

Vespa磁盘使用限制配置

另一个重要改进是增加了对Vespa存储引擎磁盘使用上限的可配置性。通过设置VESPA_DISK_USAGE_LIMIT环境变量（取值范围0到1），管理员可以精确控制Marqo使用的磁盘空间比例。

技术背景： Vespa是Marqo使用的底层搜索引擎，负责高效存储和检索向量数据。在大型生产环境中，合理控制磁盘使用对于系统稳定性和性能至关重要。这一改进让运维人员能够根据实际硬件配置和业务需求，灵活调整资源分配。

最佳实践建议：对于生产环境，建议将此值设置为0.8-0.9之间，为系统操作和临时文件留出缓冲空间。监控磁盘使用情况并根据数据增长趋势适时调整此参数。

其他改进与修复

本次版本还包含了一些重要的稳定性改进：

修复了OpenCLIP模型加载问题：当模型名称带有"hf-hub:"前缀时，tokenizer无法正确加载的问题得到了解决。这对于使用HuggingFace Hub上特定版本CLIP模型的用户尤为重要。
启动日志优化：精简了Marqo启动时的日志输出，使关键信息更加突出，便于问题排查和系统监控。

技术展望

随着2.16.0版本的发布，Marqo在文档更新功能上的突破为更动态的数据处理场景铺平了道路。未来版本可能会在此基础上进一步扩展，比如支持向量字段的增量更新，或者引入更细粒度的字段级更新控制。

磁盘使用配置的加入也标志着Marqo在运维友好性方面的进步，预示着未来可能会有更多类似的系统调优参数暴露给管理员。

升级建议

对于正在使用非结构化索引并需要频繁更新文档内容的用户，强烈建议升级到2.16.0版本以利用新的更新功能。升级前请确保备份重要数据，并在测试环境验证兼容性。

对于资源受限的环境，新的磁盘使用限制配置可以帮助更有效地管理系统资源，避免因磁盘空间耗尽导致的服务中断。

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Java

nop-entropy

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

350

203

pytorch

Ascend Extension for PyTorch

无需学习 Kubernetes 的容器平台，在 Kubernetes 上构建、部署、组装和管理应用，无需 K8s 专业知识，全流程图形化管理