OpenSearch项目中的Mapping Transformer技术解析

2025-05-22 08:34:36作者：裴麒琰

🔎 Open source distributed and RESTful search engine.

项目地址：https://gitcode.com/gh_mirrors/op/OpenSearch

在OpenSearch项目中，近期提出了一个关于Mapping Transformer的技术方案，旨在简化神经搜索(neural search)的设置过程。这项技术将引入一种新的字段类型，并允许用户在索引映射中定义模型ID，从而自动生成与神经搜索相关的字段。

背景与需求

当前在OpenSearch中设置神经搜索需要手动配置多个相关字段，如knn_vector字段等。这一过程较为复杂，容易出错。为了解决这个问题，开发团队提出了一个自动化方案：通过定义新的字段类型，系统能够根据模型ID自动生成所有必要的神经搜索字段。

技术方案比较

团队考虑了两个主要的技术实现方案：

ActionFilter方案
利用现有的ActionFilter机制来修改创建/修改索引映射和索引模板的请求。这种方案的优势是不需要修改核心代码，但缺点是职责不清晰，ActionFilter被设计为通用机制，用于此特定场景显得不够专业。
MapperPlugin扩展方案
在MapperPlugin中引入新的MappingTransformer接口，让插件实现这个接口来转换映射。这种方案职责明确，但需要修改核心代码。

经过评估，团队倾向于选择第二种方案，因为它提供了更清晰的架构和职责划分。

技术实现细节

当用户创建包含新字段类型的索引时，系统会自动转换映射。例如，当用户定义如下索引：

{
   "settings":{
      "index.knn":true
   },
   "mappings":{
      "properties":{
         "id":{
            "type":"text"
         },
         "products":{
            "type":"nested",
            "properties":{
               "product_description":{
                  "type":"semantic",
                  "model_id":"oC31TZUBuSxkFaMuZlMo"
               }
            }
         }
      }
   }
}

系统会自动将其转换为包含所有必要神经搜索字段的完整映射，包括：

原始字段保留
语义信息字段（包含分块信息）
模型元数据字段
向量嵌入字段（包括维度、引擎类型等配置）

设计考量

在技术讨论中，团队考虑了是否可以在数据摄入时动态更新映射的方案。虽然技术上可行，但团队认为在添加语义字段时就生成所有相关字段更为合理，原因包括：

职责清晰：字段生成与字段定义保持同步
快速失败：可以在早期阶段验证模型有效性
性能考虑：避免在数据摄入时频繁更新映射

总结

OpenSearch的这一技术改进将显著简化神经搜索的设置过程，使开发者能够更专注于业务逻辑而非基础设施配置。通过引入Mapping Transformer机制，系统能够自动处理复杂的字段映射关系，提高开发效率并减少配置错误。这一设计体现了OpenSearch项目对开发者体验的持续关注和改进。

🔎 Open source distributed and RESTful search engine.

项目地址：https://gitcode.com/gh_mirrors/op/OpenSearch

登录后查看全文

热门内容推荐

1 【亲测免费】开源项目 `build-your-own-x` 使用指南 2 【亲测免费】探索科技之旅：《Build Your Own X》项目详解 3 GitHub_Trending/bu/build-your-own-x自动化：CI/CD流程在自制项目中的应用 4 从零打造智能家居系统：用build-your-own-x实现家庭自动化

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

flutter_flutter

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

无需学习 Kubernetes 的容器平台，在 Kubernetes 上构建、部署、组装和管理应用，无需 K8s 专业知识，全流程图形化管理