Quickwit项目中的内存优化：减少ProcessedDocBatch的内存占用

2025-05-24 02:09:23作者：舒璇辛Bertina

Sub-second search & analytics engine on cloud storage

项目地址：https://gitcode.com/GitHub_Trending/qu/quickwit

在Quickwit项目中，文档处理流程涉及将JSON格式的文档解析为Tantivy文档结构，这一过程存在显著的内存占用问题。本文将深入分析问题根源，并探讨当前解决方案及其优化思路。

问题背景

Quickwit的文档处理采用多线程架构，将文档处理和索引操作分别放在不同的执行单元中。原始设计将JSON字符串解析为TantivyDocument结构体，这种设计导致了两方面的性能问题：

内存膨胀问题：TantivyDocument结构中每个字符串/对象字段都是独立的内存分配，这种设计带来了大量内存碎片和指针开销，显著增加了内存占用。
内存计量不准确：当前系统使用JSON文档长度作为内存占用的估算基准，这与实际内存消耗存在较大偏差，无法准确反映真实的内存使用情况。

技术分析

传统TantivyDocument结构的主要问题在于其内存布局：

每个字段都是独立分配的内存块
存在内存对齐带来的填充开销
指针引用导致缓存局部性不佳
多层嵌套结构加剧了内存碎片化

测试表明，简单的序列化/反序列化方案就能带来显著的内存优化效果，这验证了原始设计存在改进空间。

解决方案演进

项目团队提出了渐进式优化方案：

中间解决方案：采用基于序列化缓冲区的Document trait实现，通过紧凑的内存布局减少开销。这种方案实现简单且能快速见效。
CompactDoc实现：目前已引入的CompactDoc结构，其内存消耗与序列化JSON相近，显著优于原始TantivyDocument。该结构特点包括：
- 连续内存布局
- 减少指针引用
- 更好的缓存局部性
- 更准确的内存计量能力
未来优化方向：考虑零拷贝方案直接从JSON反序列化，进一步减少内存复制开销。

内存计量改进

新的CompactDoc结构为准确内存计量奠定了基础：

可以精确计算实际内存占用
避免过度估计导致的资源浪费
为系统资源调度提供可靠依据

虽然目前仍使用序列化JSON长度作为近似估计，但未来可轻松扩展为精确计量。

总结

Quickwit通过引入CompactDoc结构，有效解决了文档处理过程中的内存膨胀问题。这一优化不仅降低了内存占用，还提高了内存计量的准确性，为系统稳定性奠定了基础。这种渐进式优化思路——先解决核心问题再持续改进——值得在类似系统设计中借鉴。

Sub-second search & analytics engine on cloud storage

项目地址：https://gitcode.com/GitHub_Trending/qu/quickwit

登录后查看全文

热门内容推荐

最新内容推荐

项目优选

收起

ohos_react_native

React Native鸿蒙化仓库

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

openGauss-server

openGauss kernel ~ openGauss is an open source relational database management system

旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件，通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求，让密码技术应用更简单，同时探索后量子等先进算法创新实践，构建密码前沿技术底座！

HarmonyOS-Examples

本仓将收集和展示仓颉鸿蒙应用示例代码，欢迎大家投稿，在仓颉鸿蒙社区展现你的妙趣设计！

CangjieCommunity

为仓颉编程语言开发者打造活跃、开放、高质量的社区环境

ShopXO开源商城

🔥🔥🔥ShopXO企业级免费开源商城系统，可视化DIY拖拽装修、包含PC、H5、多端小程序(微信+支付宝+百度+头条&抖音+QQ+快手)、APP、多仓库、多商户、多门店、IM客服、进销存，遵循MIT开源协议发布、基于ThinkPHP8框架研发

一款跨平台的 Markdown AI 笔记软件，致力于使用 AI 建立记录和写作的桥梁。

🍒 Cherry Studio 是一款支持多个 LLM 提供商的桌面客户端

基于可以运行在OpenHarmony的git，提供git客户端操作能力