NVIDIA/nv-ingest项目：为VDBTask添加BM25索引支持的技术解析

2025-06-29 06:28:24作者：冯爽妲Honey

NeMo Retriever Library is a scalable, performance-oriented document content and metadata extraction microservice. NeMo Retriever Library uses specialized NVIDIA NIM microservices to find, contextualize, and extract text, tables, charts and images that you can use in downstream generative applications.

项目地址：https://gitcode.com/GitHub_Trending/nv/NeMo-Retriever

背景与需求

在NVIDIA的nv-ingest项目中，VDBTask作为向量数据库任务的核心组件，负责处理数据管道的索引和查询功能。随着搜索技术的发展，单纯的向量嵌入搜索已经不能满足所有场景需求，特别是在需要结合传统文本搜索优势的情况下。BM25作为一种经典的文本相关性评分算法，在信息检索领域有着广泛应用。

当前VDBTask仅支持基于模型嵌入的向量索引，这限制了系统实现混合搜索（hybrid search）的能力。混合搜索能够同时利用语义理解（通过向量嵌入）和关键词匹配（通过BM25）的优势，为用户提供更精准的搜索结果。

技术实现方案

BM25算法简介

BM25（Best Matching 25）是信息检索领域广泛使用的概率相关性评分算法，它基于词频（TF）和逆文档频率（IDF）计算文档与查询的相关性。相比简单的TF-IDF，BM25引入了文档长度归一化等改进，使其在各种数据集上表现更加稳健。

Milvus的BM25支持

Milvus作为一款流行的向量数据库，已经内置了对BM25算法的支持。这使得我们可以在不引入额外依赖的情况下，为VDBTask添加BM25索引功能。

实现细节

在VDBTask中实现BM25支持主要涉及以下技术点：

索引创建：在管道任务初始化时，除了创建常规的向量索引外，还需要为文本字段创建BM25倒排索引。
混合查询处理：系统需要能够同时处理向量相似度查询和BM25相关性查询，并将两种评分结果进行合理的融合。
权重配置：允许用户配置向量搜索和BM25搜索的权重比例，以适应不同场景的需求。

使用方式

用户可以通过简单的布尔参数来启用BM25功能：

VDBTask(bm25=True)

这行代码将指示VDBTask同时加载模型嵌入索引和BM25索引，为后续的混合搜索做好准备。

技术优势

提升搜索质量：结合语义理解和关键词匹配，能够更准确地捕捉用户意图。
灵活性：用户可以根据场景需求调整两种搜索方式的权重。
性能优化：利用Milvus已有的BM25实现，避免了额外的性能开销。
无缝集成：对现有API的影响最小化，保持向后兼容。

应用场景

这项改进特别适用于以下场景：

电商搜索：同时匹配产品描述的语义和用户输入的具体型号、参数等关键词。
文档检索：在理解查询意图的同时，精确匹配文档中的专业术语。
问答系统：结合问题语义和关键词，提供更准确的答案。

总结

为NVIDIA/nv-ingest项目的VDBTask添加BM25支持，显著提升了系统的搜索能力，使其能够更好地满足复杂场景下的信息检索需求。这一改进保持了系统的简洁性，同时提供了更强大的功能，是向量搜索与传统文本搜索技术融合的优秀实践。

NeMo-Retriever

项目地址：https://gitcode.com/GitHub_Trending/nv/NeMo-Retriever

登录后查看全文

项目优选

收起

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

本仓将收集和展示高质量的仓颉示例代码，欢迎大家投稿，让全世界看到您的妙趣设计，也让更多人通过您的编码理解和喜爱仓颉语言。

462

5.48 K

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

C++

1.1 K

1.15 K

NVIDIA/nv-ingest项目：为VDBTask添加BM25索引支持的技术解析

背景与需求

技术实现方案

BM25算法简介

Milvus的BM25支持

实现细节

使用方式

技术优势

应用场景

总结

热门内容推荐

最新内容推荐

项目优选

NVIDIA/nv-ingest项目：为VDBTask添加BM25索引支持的技术解析

背景与需求

技术实现方案

BM25算法简介

Milvus的BM25支持

实现细节

使用方式

技术优势

应用场景

总结

相关内容推荐

热门内容推荐

最新内容推荐

项目优选