Sloth项目中SLO仪表板NaN问题的分析与解决方案

2025-07-03 16:38:31作者：苗圣禹Peter

🦥 Easy and simple Prometheus SLO (service level objectives) generator

项目地址：https://gitcode.com/gh_mirrors/slo/sloth

问题背景

在使用Sloth项目的SLO规范与仪表板时，开发人员遇到了一个常见但棘手的问题：在Grafana仪表板中出现了NaN（非数字）值的显示。这种情况特别容易发生在系统刚部署或流量较低的时段，尤其是在使用5分钟SLI窗口的情况下。

问题本质分析

NaN值的出现源于PromQL查询的特殊性。当监控系统没有收到任何流量时，某些查询会返回NaN结果。具体到Sloth项目，当错误查询（error_query）和总查询（total_query）的比值为0/0时，Prometheus会返回NaN。这种情况在短时间窗口（如5分钟）内尤为常见。

技术解决方案

经过社区讨论和技术验证，目前有以下几种解决方案：

基础查询修正法：在总查询（total_query）中添加保护条件，确保分母永远不会为零。例如：
```
(sum(rate(nginx_requests{path="/auth",service="myservice"}[{{.window}}])) >0) or on() vector(1)
```

仪表板查询修正法：直接修改仪表板中的查询表达式，添加类似的保护条件：

slo:period_error_budget_remaining:ratio{sloth_service="${service}", sloth_slo="${slo}"} >0 or on() vector(1)

技术细节解析

on()操作符的作用： on()操作符在PromQL中用于指定标签匹配条件。在表达式(up{instance="x"} > 0) or on() vector(1)中，on()确保只产生一个时间序列，而不是多个。这对于SLO计算至关重要，因为它保证了结果的唯一性。
vector(1)的含义： vector(1)创建一个值为1的瞬时向量，当主查询条件不满足时作为默认值返回。这确保了即使在没有流量的情况下，查询也不会返回NaN。
负值问题：在某些情况下，修正后可能出现负百分比值（如-448%）。这通常表示错误预算已经被严重透支，系统性能远低于SLO目标。这种情况需要引起重视，可能表明系统存在严重问题。

最佳实践建议

对于新部署的系统，建议在Sloth规范中预先添加保护条件，而不是等问题出现后再修正。
对于短时间窗口（如5分钟）的SLO监控，更需要注意NaN问题的预防，因为短窗口更容易出现零流量的情况。
当修改查询条件后，可能需要等待一个完整的窗口周期（如30天）才能完全消除历史NaN值的影响。在此期间，可以考虑临时重命名或重新标记SLO以获取准确数据。
定期检查SLO仪表板，特别关注负百分比值，这可能是系统性能问题的早期预警信号。

通过理解这些技术细节和解决方案，开发人员可以更有效地使用Sloth项目进行SLO监控，避免NaN值带来的困扰，获得更准确可靠的系统性能指标。

🦥 Easy and simple Prometheus SLO (service level objectives) generator

项目地址：https://gitcode.com/gh_mirrors/slo/sloth

登录后查看全文

热门内容推荐

1 编程实践项目探索指南：从零构建技术能力体系 2 技术解构式学习：从0到1构建你的编程知识体系 3 构建自己的技术世界：build-your-own-x项目的实践探索指南 4 解锁编程技能的实践之旅：从零构建你的技术世界 5 技术实践探索：从零开始构建核心系统的实践指南 6 亲手锻造技术引擎：从0到1构建核心系统的实践指南

最新内容推荐

AcFunDown视频下载工具完全指南还在为数字笔记抓狂？这款开源神器让手写批注效率提升300%Windows笔记本电池健康管理全指南：从根源解决电池损耗问题 gmx_MMPBSA分子间相互作用索引错误的深度诊断与解决 Axure RP 11 本地化方案：Mac中文界面优化与原型设计工具汉化全指南如何高效获取教育资源？这款工具让教材下载效率提升80%视频元数据深度编辑：专业技巧与案例网盘直链下载技术解析与应用指南如何用DeepSeek-R1推理模型提升复杂任务解决能力：完整指南 5个突破瓶颈技巧：硬件优化工具让你的电脑性能提升30%

项目优选

收起

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体，本仓库为其提供可复用的 Skills 模块。

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。