Supersonic项目中的DataSetResolver规则优化实践

2025-06-20 18:24:08作者：董宙帆

在Supersonic项目的实际应用场景中，用户反馈了一个关于数据集选择稳定性的问题：当用户精确指定某个指标名称时，系统却意外地选择了模糊匹配该指标的数据集。这种情况影响了用户体验和查询结果的准确性。本文将深入分析该问题的技术背景、解决方案以及优化后的实现逻辑。

问题背景分析

在语义层查询处理过程中，数据集解析器(DataSetResolver)负责将用户查询中的语义元素映射到物理数据集。原有的HeuristicDataSetResolver实现采用了多维度相似度计算的综合策略，包括：

数据集名称相似度
指标名称相似度
维度名称相似度
其他元素匹配情况

这种综合评分机制虽然考虑了多方面因素，但在特定场景下会出现优先级错位的问题。特别是当用户明确指定某个指标时，系统可能因为其他元素的综合评分更高而选择了非最优的数据集。

技术解决方案

针对这一问题，我们对HeuristicDataSetResolver的匹配规则进行了简化和优化，建立了更清晰的优先级层次：

数据集最大相似度优先：首先确保选择的数据集名称与查询语义最匹配
指标最大相似度次之：在数据集相似度相当的情况下，优先考虑指标名称的精确匹配
综合相似度最后：仅当前两者无法区分时才考虑所有元素的总体匹配情况

这种分层策略更符合用户的直觉预期，特别是当用户明确指定某个指标时，系统会优先保证该指标的精确匹配。

实现细节

在具体实现上，我们重构了相似度计算的逻辑流程：

首先计算候选数据集与查询的数据集名称相似度，保留最高分候选
对于同分候选，再计算指标名称的相似度，确保精确指定的指标优先匹配
最后才考虑维度等其他元素的综合匹配情况

这种分阶段筛选的方式不仅提高了匹配精度，也优化了计算效率，避免了不必要的全量相似度计算。

实际效果

经过优化后，系统在以下场景表现显著改善：

当查询包含特定指标时，能准确选择包含该指标的数据集
减少了因模糊匹配导致的意外结果
提升了复杂查询场景下的结果一致性

这一改进使得Supersonic的语义层更加稳定可靠，特别是在企业级应用场景中，精确的指标查询结果对业务决策至关重要。

总结

本次优化展示了在语义解析系统中平衡精确匹配与模糊匹配的重要性。通过建立清晰的优先级规则，我们既保留了系统处理模糊查询的能力，又确保了精确查询场景下的结果准确性。这种分层匹配策略也为后续类似问题的解决提供了可借鉴的思路。

对于开发者而言，理解语义解析系统中各元素的优先级关系，对于设计鲁棒性强的查询处理流程具有重要意义。Supersonic项目的这一实践也印证了在复杂系统中，有时简单的规则调整往往能带来显著的改进效果。

supersonic

SuperSonic is the next-generation AI+BI platform that unifies Chat BI (powered by LLM) and Headless BI (powered by semantic layer) paradigms.

项目地址：https://gitcode.com/GitHub_Trending/su/supersonic

登录后查看全文

项目优选

收起

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

Rust

578

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Ascend Extension for PyTorch

🍒 Cherry Studio 是一款支持多个 LLM 提供商的桌面客户端

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java