SkyWalking端点拓扑图查询优化：避免虚拟端点导致的性能问题

2025-05-08 02:05:21作者：韦蓉瑛

Apache SkyWalking是一款强大的开源应用性能监控系统，专为微服务、云原生及容器化架构设计。它通过端到端的分布式追踪、服务拓扑分析和专注于服务的可观测性，提供了深度洞察您的复杂系统。支持多种编程语言如Java、.Net Core、PHP等的代理，确保全面覆盖。借助eBPF技术的Rover agent，SkyWalking能在Kubernetes环境中高效监控与诊断性能问题。它能处理惊人的数据量，集成Prometheus、Zipkin等成熟生态系统，并引入了自研的BanyanDB来存储观测数据。此外， SkyWalking提供日志管理、智能告警设置与丰富的可视化界面，让系统监控变得前所未有的简单直观。无论是在快速迭代的研发前线还是在要求严格的生产环境，SkyWalking都是您不可或缺的云端守护者。立即探索，加入全球数百家企业信赖的SkyWalking社区，提升您的系统运维效率与稳定性。

项目地址：https://gitcode.com/gh_mirrors/sk/skywalking

问题背景

在Apache SkyWalking的可观测性平台中，端点拓扑图功能是帮助开发者理解系统调用关系的重要工具。然而，在实际使用过程中，当查询深度超过2层时，系统会查询所有虚拟端点的链路信息，这在处理大规模数据时会导致严重的性能问题。

问题现象

当用户尝试查看深度较大的拓扑图时，系统会返回错误信息："More than 15,000 'grammar' tokens have been presented. To prevent Denial Of Service attacks, parsing has been cancelled"。这表明系统为防止DOS攻击，主动终止了包含过多语法标记的查询请求。

根本原因分析

经过深入分析，发现问题的核心在于拓扑图查询逻辑存在以下缺陷：

虚拟端点处理不当：当查询结果中包含"User"虚拟端点时，系统会将此虚拟端点的ID包含在后续查询参数中
无效查询扩散：系统会检索该虚拟端点下的所有链路拓扑信息，而这些信息实际上与目标端点无关
查询终止机制缺失：系统未能识别虚拟端点作为调用链起点的特性，继续向下查询导致查询范围爆炸式增长

解决方案

针对上述问题，我们提出了以下优化方案：

虚拟端点过滤：在后续查询参数中过滤掉名为"User"的虚拟端点ID
查询终止逻辑：当查询到达虚拟端点时，识别其作为调用链起点的特性，终止进一步查询
性能优化：减少不必要的查询请求，降低系统负载

实现原理

优化后的查询逻辑工作流程如下：

用户发起端点拓扑查询请求
系统执行第一层查询，获取直接关联的端点信息
在准备第二层查询参数时，系统会：
- 检查结果中是否包含虚拟端点
- 过滤掉虚拟端点的ID
- 仅保留实际端点的ID作为后续查询参数
如果查询结果中只包含虚拟端点，则终止后续查询

预期效果

实施这些优化后，系统将获得以下改进：

性能提升：显著减少不必要的查询请求，降低系统负载
稳定性增强：避免触发DOS保护机制，提高功能可用性
用户体验改善：用户能够正常查看深度较大的拓扑图，不受性能问题影响

总结

SkyWalking端点拓扑图功能的这一优化，体现了在复杂分布式系统监控中精细化管理查询请求的重要性。通过合理识别和处理虚拟端点，我们不仅解决了性能瓶颈问题，还提升了整个可观测性平台的健壮性和用户体验。这一改进对于处理大规模分布式系统的监控场景尤为重要，为开发者提供了更可靠的分析工具。

Apache SkyWalking是一款强大的开源应用性能监控系统，专为微服务、云原生及容器化架构设计。它通过端到端的分布式追踪、服务拓扑分析和专注于服务的可观测性，提供了深度洞察您的复杂系统。支持多种编程语言如Java、.Net Core、PHP等的代理，确保全面覆盖。借助eBPF技术的Rover agent，SkyWalking能在Kubernetes环境中高效监控与诊断性能问题。它能处理惊人的数据量，集成Prometheus、Zipkin等成熟生态系统，并引入了自研的BanyanDB来存储观测数据。此外， SkyWalking提供日志管理、智能告警设置与丰富的可视化界面，让系统监控变得前所未有的简单直观。无论是在快速迭代的研发前线还是在要求严格的生产环境，SkyWalking都是您不可或缺的云端守护者。立即探索，加入全球数百家企业信赖的SkyWalking社区，提升您的系统运维效率与稳定性。

项目地址：https://gitcode.com/gh_mirrors/sk/skywalking

登录后查看全文

最新内容推荐

电脑PC网易云音乐免安装皮肤插件使用指南：个性化音乐播放体验开源电子设计自动化利器：KiCad EDA全方位使用指南 Jetson TX2开发板官方资源完全指南：从入门到精通昆仑通态MCGS与台达VFD-M变频器通讯程序详解：工业自动化控制完美解决方案基恩士LJ-X8000A开发版SDK样本程序全面指南 - 工业激光轮廓仪开发利器 PhysioNet医学研究数据库：临床数据分析与生物信号处理的权威资源指南 QT连接阿里云MySQL数据库完整指南：从环境配置到问题解决 Python案例资源下载 - 从入门到精通的完整项目代码合集 2022美赛A题优秀论文深度解析：自行车功率分配建模的成功方法 TJSONObject完整解析教程：Delphi开发者必备的JSON处理指南

项目优选

收起

deepin linux kernel

Ascend Extension for PyTorch

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

flutter_flutter

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

ohos_react_native

React Native鸿蒙化仓库

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

cangjie_compiler

仓颉编译器源码及 cjdb 调试工具。

仓颉编程语言测试用例。

openGauss-server

openGauss kernel ~ openGauss is an open source relational database management system