Manticore Search 中 AVG 聚合函数与 JOIN 查询的 Bug 分析

2025-05-23 04:11:31作者：宣聪麟

问题背景

在 Manticore Search 6.3.9 版本中，用户发现了一个关于聚合函数与 JOIN 查询结合使用时出现的计数错误问题。当查询中包含 AVG 聚合函数时，JOIN 操作后的 COUNT(*) 结果会明显低于实际值，而移除 AVG 函数后计数结果恢复正常。

问题重现

通过以下测试案例可以稳定重现该问题：

创建两个测试表：
- products 表：包含 2 条记录
- reviews 表：包含 1001 条记录，每条记录随机关联到 products 表的某条记录
执行以下查询：

SELECT id, COUNT(*), AVG(reviews.rating) 
FROM products 
LEFT JOIN reviews ON reviews.product_id = products.id 
GROUP BY id 
ORDER BY COUNT(*) DESC;

观察结果：
- 包含 AVG 函数的查询返回的 COUNT(*) 值不正确（如 513 和 487）
- 不含 AVG 函数的相同查询返回正确的 COUNT(*) 值（如 514 和 487）

问题分析

经过技术团队深入分析，发现该问题与 Manticore Search 的 JOIN 批处理机制有关：

当右表（reviews）记录数超过 1000 条时，JOIN 操作会启用批处理机制
在批处理模式下，AVG 聚合函数的计算会干扰 COUNT(*) 的正确统计
通过设置 option join_batch_size=0 禁用批处理可以解决该问题，但会显著降低查询性能

技术原理

Manticore Search 在处理 JOIN 查询时：

默认情况下会对大型 JOIN 操作进行批处理优化，以提高性能
批处理机制会将右表数据分成多个批次进行处理
当查询中包含 AVG 聚合函数时，批处理过程中的中间结果合并出现了逻辑错误
这种错误导致 COUNT(*) 统计值偏低，而 AVG 计算结果虽然看似合理但基于错误的基数

解决方案

该问题已在最新代码中修复，具体修复内容包括：

修正了批处理模式下聚合函数的计算逻辑
确保 COUNT(*) 和 AVG 等聚合函数在批处理过程中能正确合并中间结果
添加了专门的测试用例验证该场景，防止回归

最佳实践

对于使用 Manticore Search 的用户，建议：

升级到包含该修复的版本
如果暂时无法升级，对于包含 AVG 等聚合函数的 JOIN 查询：
- 可以考虑使用 option join_batch_size=0 临时解决方案
- 但需注意这可能导致查询性能下降
在大型 JOIN 查询场景下，应充分测试验证统计结果的准确性

总结

这个案例展示了数据库系统中查询优化与正确性之间的微妙平衡。Manticore Search 团队通过快速响应和修复，确保了系统在保持高性能的同时提供准确的计算结果。对于开发者而言，这也提醒我们在使用高级查询功能时，需要关注边界条件和极端场景下的结果验证。

manticoresearch

Easy to use open source fast database for search | Good alternative to Elasticsearch | Drop-in replacement for E in the ELK stack

项目地址：https://gitcode.com/gh_mirrors/ma/manticoresearch

登录后查看全文

项目优选

收起

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

458

445

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体，本仓库为其提供可复用的 Skills 模块。

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

Python

151

253

Manticore Search 中 AVG 聚合函数与 JOIN 查询的 Bug 分析

问题背景

问题重现

问题分析

技术原理

解决方案

最佳实践

总结

热门内容推荐

最新内容推荐

项目优选

Manticore Search 中 AVG 聚合函数与 JOIN 查询的 Bug 分析

问题背景

问题重现

问题分析

技术原理

解决方案

最佳实践

总结

相关内容推荐

热门内容推荐

最新内容推荐

项目优选