Infinity嵌入式数据库中的混合查询问题分析与解决方案

2025-06-20 10:18:24作者：薛曦旖Francesca

The AI-native database built for LLM applications, providing incredibly fast hybrid search of dense vector, sparse vector, tensor (multi-vector), and full-text.

项目地址：https://gitcode.com/gh_mirrors/inf/infinity

问题背景

在Infinity嵌入式数据库的实际应用场景中，开发者经常需要结合精确过滤和全文检索两种查询方式。具体表现为先通过UUID等唯一标识符进行精确筛选，再对筛选结果进行关键词匹配搜索。这种混合查询模式在文档检索、内容管理等场景中尤为常见。

问题现象

开发者在使用Infinity嵌入式数据库时，尝试执行以下查询逻辑时遇到了系统错误：

首先通过UUID列表进行精确过滤
然后在过滤结果上执行全文检索
最后使用RRF算法进行结果融合

执行过程中系统抛出"Not implemented 33's Hash"错误，导致查询失败。而单独执行过滤或全文检索则能正常工作。

技术分析

错误根源

该问题源于Infinity的结果缓存机制实现存在缺陷。当系统尝试对混合查询计划进行缓存时，未能正确处理包含过滤条件的查询节点哈希计算，导致哈希函数未实现的异常。

影响范围

该问题主要影响以下查询场景：

同时包含精确过滤和全文检索的复合查询
使用结果融合算法的查询
启用了查询结果缓存的配置环境

解决方案

临时解决方案

目前可以通过修改Infinity配置文件来临时解决此问题：

result_cache = "off"

关闭结果缓存功能后，系统将不再尝试缓存查询计划，从而避免哈希计算引发的错误。

长期解决方案

Infinity开发团队已确认该问题为已知缺陷，并计划在后续版本中修复。修复方向包括：

完善查询节点的哈希计算实现
增强混合查询计划缓存的支持
优化结果缓存机制对复合查询的处理

最佳实践建议

在使用Infinity嵌入式数据库进行混合查询时，建议开发者：

对于生产环境，暂时关闭结果缓存以确保稳定性
监控官方版本更新，及时升级到包含修复的版本
复杂查询可分步执行，先过滤再搜索，虽然效率略低但可靠性更高
关注查询性能指标，根据实际负载情况调整缓存策略

总结

Infinity嵌入式数据库作为新兴的数据库解决方案，在混合查询场景下展现了强大的功能潜力。当前版本在结果缓存实现上存在一定局限性，但通过合理配置仍可满足大多数应用场景的需求。随着项目的持续发展，这些问题有望在后续版本中得到完善解决。

infinity

The AI-native database built for LLM applications, providing incredibly fast hybrid search of dense vector, sparse vector, tensor (multi-vector), and full-text.

项目地址：https://gitcode.com/gh_mirrors/inf/infinity

登录后查看全文

项目优选

收起

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

468

461

pytorch

Ascend Extension for PyTorch

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体，本仓库为其提供可复用的 Skills 模块。

Python

1.03 K

646