OpenSearch项目中的可写热存储与Composite Directory工厂模式解析

2025-05-22 14:56:55作者：史锋燃Gardner

背景与问题概述

在OpenSearch分布式搜索和分析引擎中，Writable Warm功能是一项重要的存储优化特性。该功能允许将部分索引数据存储在远程存储系统中，同时保持数据的可写性。为了实现这一功能，开发团队引入了Composite Directory（复合目录）的概念，它能够抽象化数据的位置（本地或远程），并通过FileCache（文件缓存）机制进行管理。

然而，在当前的实现中存在一个设计上的局限性：Composite Directory的初始化是直接硬编码的，而不是通过工厂模式进行创建。这与OpenSearch中其他目录（如本地目录）的创建方式不一致，后者允许用户通过插件系统提供自定义实现。

技术痛点分析

当前Composite Directory的初始化方式如下：

directory = new CompositeDirectory(localDirectory, remoteDirectory, fileCache);

这种方式存在两个主要问题：

扩展性不足：用户无法像自定义本地目录那样提供自己的Composite Directory实现
设计不一致：与OpenSearch中其他目录组件的创建模式不统一

解决方案设计

为了解决上述问题，我们提出引入CompositeDirectoryFactory接口，其核心设计如下：

interface CompositeDirectoryFactory {
    Directory newDirectory(IndexSettings indexSettings, 
                         ShardPath shardPath, 
                         DirectoryFactory localDirectoryFactory, 
                         Directory remoteDirectory, 
                         FileCache fileCache) throws IOException;
}

关键设计要点

插件化支持：通过扩展IndexStorePlugin接口，添加新的方法getCompositeDirectoryFactories()，使Composite Directory工厂可被插件化实现
默认实现：提供DefaultCompositeDirectoryFactory作为默认实现，使用现有的CompositeDirectory类
配置支持：引入新的索引设置index.composite_store.type，允许用户指定使用的Composite Directory工厂类型

技术实现细节

工厂模式的优势

采用工厂模式后，系统将获得以下优势：

解耦：将目录创建逻辑与使用逻辑分离
可扩展：用户可以通过插件提供自定义实现
一致性：与其他目录组件的创建方式保持一致

配置示例

用户可以在索引设置中指定Composite Directory类型：

{
    "index": {
        "composite_store": {
            "type": "custom_implementation"
        }
    }
}

性能考量

虽然工厂模式会引入轻微的间接调用开销，但这种开销在现代JVM上几乎可以忽略不计。更重要的是，这种设计带来的灵活性和可维护性提升远大于微小的性能开销。

应用场景

这种改进特别适用于以下场景：

特殊存储需求：当用户需要特殊的本地-远程存储组合策略时
性能调优：当默认实现不能满足特定工作负载的性能需求时
实验性功能：当用户希望尝试新的缓存或存储策略时

总结

通过在OpenSearch中引入CompositeDirectoryFactory，我们不仅解决了现有设计的一致性问题，还为Writable Warm功能提供了更强的扩展能力。这种改进遵循了OpenSearch一贯的模块化和可扩展设计哲学，为未来的存储优化奠定了良好的基础。

对于OpenSearch用户来说，这意味着他们可以根据自己的特定需求定制存储行为，而不必受限于系统的默认实现。对于开发者来说，这提供了一个清晰的扩展点，可以更容易地实验和贡献新的存储优化方案。

OpenSearch

🔎 Open source distributed and RESTful search engine.

项目地址：https://gitcode.com/gh_mirrors/op/OpenSearch

登录后查看全文

项目优选

收起

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

433

395

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

C++

1.01 K

atomcode

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Vue

1.68 K

989