InfluxDB 3.0 中 Parquet 缓存的写入优化方案

2025-05-05 06:24:29作者：柏廷章Berta

背景与问题分析

在 InfluxDB 3.0 的存储架构中，Parquet 缓存扮演着重要角色，它作为对象存储和查询引擎之间的中间层，能够显著提升查询性能。当前实现中，缓存填充仅支持通过 GET 请求从对象存储获取数据的方式，这在某些场景下会带来明显的性能损耗。

特别是在写入缓冲区（write buffer）的持久化过程中，当 Parquet 文件被写入对象存储后，系统会立即提交一个缓存请求。按照现有逻辑，这个请求会再次从对象存储获取刚刚写入的数据，造成了不必要的网络往返和资源消耗。这种设计显然存在优化空间，因为写入过程中系统已经完整掌握了待缓存的数据内容。

技术实现现状

当前 InfluxDB 3.0 的 Parquet 缓存模块采用请求-响应模式工作，核心逻辑如下：

缓存服务接收 CacheRequest 请求
根据请求中的对象存储路径发起 GET 请求
将获取的数据存入本地缓存
后续查询优先从缓存读取

这种纯拉取（pull-based）的缓存填充机制虽然简单可靠，但在写入路径上造成了冗余操作。每次写入后立即触发的缓存填充实际上是对刚刚写入数据的重复获取，不仅增加了延迟，也消耗了额外的网络带宽和计算资源。

优化方案设计

针对上述问题，我们提出扩展 CacheRequest 类型的方案，将其改造为支持多种缓存填充模式的枚举类型：

enum CacheRequest {
    // 原有的拉取模式
    Fetch {
        object_store_path: String,
        // 其他元数据...
    },
    // 新增的直写模式
    WriteThrough {
        object_store_path: String,
        data: Bytes,
        // 其他元数据...
    }
}

这种设计带来了以下优势：

写入路径优化：在数据持久化过程中可以直接携带数据内容提交缓存请求，避免后续的重复获取
资源利用率提升：减少网络往返和对象存储的请求压力
灵活性增强：系统可以根据场景选择最适合的缓存填充策略

实现细节考量

在实际实现过程中，需要考虑以下几个关键点：

内存管理：直写模式需要确保数据在传输过程中的内存安全，避免不必要的拷贝
错误处理：需要设计完善的错误恢复机制，确保直写失败时能够回退到拉取模式
流控机制：直写模式可能带来更高的内存压力，需要相应的背压控制
一致性保证：确保缓存与底层存储的一致性，特别是在写入失败场景下

性能影响评估

该优化预计将在以下方面带来显著改进：

写入延迟降低：消除冗余的对象存储GET请求，缩短写入路径的总体耗时
对象存储负载减少：减少约50%的冗余请求量
系统吞吐量提升：更高效的资源利用允许处理更高的写入速率

总结与展望

InfluxDB 3.0 通过引入 Parquet 缓存的直写模式，有效优化了写入路径的性能表现。这种改进不仅解决了当前版本中的特定性能问题，也为未来的缓存策略演进奠定了基础。后续可以考虑进一步扩展缓存功能，例如：

支持更细粒度的缓存更新
实现智能的缓存预热策略
开发基于访问模式的动态缓存管理

这种架构演进体现了现代数据库系统在性能优化方面的持续探索，通过精心设计的缓存策略在存储效率和查询性能之间取得最佳平衡。

登录后查看全文

项目优选

收起

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

deepin linux kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

flutter_flutter

用户可使用该项目在 OpenHarmony 平台开发应用，支持通过 IDE 或终端用 Flutter Tools 指令编译构建，基于 Flutter 3.27.4 版本，新增 impeller-vulkan 渲染模式，兼容多种开发指令与环境配置。

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体，本仓库为其提供可复用的 Skills 模块。