Marqo 2.16.0版本发布:支持非结构化索引文档更新与磁盘使用优化
项目简介
Marqo是一个开源的向量搜索引擎,它结合了传统搜索引擎和现代机器学习模型的优势,能够高效地处理文本、图像等多模态数据的搜索需求。Marqo的核心特点是提供了简单易用的API接口,让开发者可以快速构建基于语义理解的搜索应用。
2.16.0版本重要更新
非结构化索引文档更新功能
在2.16.0版本中,Marqo引入了一个备受期待的功能:对非结构化索引的文档更新支持。这一功能允许开发者在不重新索引整个文档的情况下,修改现有非向量字段或添加新字段。
技术实现解析: Marqo团队通过优化底层存储结构和索引机制,实现了对非结构化索引的增量更新能力。当调用update_documents接口时,系统会智能识别变更的字段,仅更新受影响的部分,而保留其他未修改的内容,包括预先计算好的向量表示。
使用场景示例: 假设你有一个电商产品索引,其中包含产品描述、价格等字段。当某个产品的价格发生变化时,现在只需调用更新接口修改价格字段,而不需要重新处理整个产品文档的文本和图像向量化过程,大大提高了系统效率。
Vespa磁盘使用限制配置
另一个重要改进是增加了对Vespa存储引擎磁盘使用上限的可配置性。通过设置VESPA_DISK_USAGE_LIMIT环境变量(取值范围0到1),管理员可以精确控制Marqo使用的磁盘空间比例。
技术背景: Vespa是Marqo使用的底层搜索引擎,负责高效存储和检索向量数据。在大型生产环境中,合理控制磁盘使用对于系统稳定性和性能至关重要。这一改进让运维人员能够根据实际硬件配置和业务需求,灵活调整资源分配。
最佳实践建议: 对于生产环境,建议将此值设置为0.8-0.9之间,为系统操作和临时文件留出缓冲空间。监控磁盘使用情况并根据数据增长趋势适时调整此参数。
其他改进与修复
本次版本还包含了一些重要的稳定性改进:
-
修复了OpenCLIP模型加载问题:当模型名称带有"hf-hub:"前缀时,tokenizer无法正确加载的问题得到了解决。这对于使用HuggingFace Hub上特定版本CLIP模型的用户尤为重要。
-
启动日志优化:精简了Marqo启动时的日志输出,使关键信息更加突出,便于问题排查和系统监控。
技术展望
随着2.16.0版本的发布,Marqo在文档更新功能上的突破为更动态的数据处理场景铺平了道路。未来版本可能会在此基础上进一步扩展,比如支持向量字段的增量更新,或者引入更细粒度的字段级更新控制。
磁盘使用配置的加入也标志着Marqo在运维友好性方面的进步,预示着未来可能会有更多类似的系统调优参数暴露给管理员。
升级建议
对于正在使用非结构化索引并需要频繁更新文档内容的用户,强烈建议升级到2.16.0版本以利用新的更新功能。升级前请确保备份重要数据,并在测试环境验证兼容性。
对于资源受限的环境,新的磁盘使用限制配置可以帮助更有效地管理系统资源,避免因磁盘空间耗尽导致的服务中断。
Kimi-K2.5Kimi K2.5 是一款开源的原生多模态智能体模型,它在 Kimi-K2-Base 的基础上,通过对约 15 万亿混合视觉和文本 tokens 进行持续预训练构建而成。该模型将视觉与语言理解、高级智能体能力、即时模式与思考模式,以及对话式与智能体范式无缝融合。Python00
GLM-4.7-FlashGLM-4.7-Flash 是一款 30B-A3B MoE 模型。作为 30B 级别中的佼佼者,GLM-4.7-Flash 为追求性能与效率平衡的轻量化部署提供了全新选择。Jinja00
VLOOKVLOOK™ 是优雅好用的 Typora/Markdown 主题包和增强插件。 VLOOK™ is an elegant and practical THEME PACKAGE × ENHANCEMENT PLUGIN for Typora/Markdown.Less00
PaddleOCR-VL-1.5PaddleOCR-VL-1.5 是 PaddleOCR-VL 的新一代进阶模型,在 OmniDocBench v1.5 上实现了 94.5% 的全新 state-of-the-art 准确率。 为了严格评估模型在真实物理畸变下的鲁棒性——包括扫描伪影、倾斜、扭曲、屏幕拍摄和光照变化——我们提出了 Real5-OmniDocBench 基准测试集。实验结果表明,该增强模型在新构建的基准测试集上达到了 SOTA 性能。此外,我们通过整合印章识别和文本检测识别(text spotting)任务扩展了模型的能力,同时保持 0.9B 的超紧凑 VLM 规模,具备高效率特性。Python00
KuiklyUI基于KMP技术的高性能、全平台开发框架,具备统一代码库、极致易用性和动态灵活性。 Provide a high-performance, full-platform development framework with unified codebase, ultimate ease of use, and dynamic flexibility. 注意:本仓库为Github仓库镜像,PR或Issue请移步至Github发起,感谢支持!Kotlin07
compass-metrics-modelMetrics model project for the OSS CompassPython00