深入分析Boulder项目中Redis限流系统的异常延迟指标

2025-06-07 19:40:05作者：俞予舒Fleming

在Boulder项目的Redis键值存储限流系统中，我们观察到了一个值得关注的现象：系统中约50%的键查询返回"NotFound"状态，这与正常操作条件下的预期不符。本文将深入分析这一现象背后的技术原因及其对系统性能的影响。

问题现象

在监控数据中，我们注意到以下关键现象：

系统中约50%的键查询返回"NotFound"状态
拒绝(denial)操作的延迟指标异常快速

正常情况下，除非半数调用者从未与我们的键值速率限制系统交互过，否则不应出现如此高比例的"NotFound"状态。这一现象可能解释了为何拒绝操作的延迟指标显示异常快速。

系统操作机制分析

Boulder的限流系统主要有两种操作模式：

拒绝操作(Denial)：
- 仅执行一次GET操作
- 进行少量数学计算后快速退出
- 理论上这是最快的操作路径
允许操作(Allowed)：
- 需要执行GET操作
- 计算新的TAT(理论到达时间)
- 执行SET操作存储新的TAT
- 操作路径更长，耗时更多

异常现象的技术解释

观察到的异常快速拒绝延迟指标并非因为所有拒绝操作都在本地处理，而是因为系统中存在的拒绝操作都是通过本地处理的。这背后的根本原因可能与高比例的"NotFound"状态有关。

当键不存在时，系统会直接返回拒绝结果，这种路径不需要任何写入操作，因此响应速度极快。而正常的允许操作需要完整的读写流程，耗时自然更长。

Redis分片一致性验证

为了验证Redis分片实现是否正确，我们设计了一系列测试用例，确保：

两个独立配置的redis.Ring客户端能够均匀分布写入操作
管道写入操作在不同分片间保持一致
管道读取操作在不同分片间保持一致

测试结果显示，写入操作在两个Redis分片间分布均匀(525:475)，且读取操作能够正确地从相应分片获取数据，验证了分片实现的正确性。

系统优化建议

基于分析结果，我们建议：

监控新用户比例：跟踪首次使用限流系统的用户比例，验证高"NotFound"率的合理性
优化键设计：考虑预初始化常用键，减少"NotFound"情况
细化监控指标：区分因键不存在导致的拒绝和因超出限制导致的拒绝
性能基准测试：建立更全面的性能基准，包括各种操作路径的预期延迟

通过以上措施，可以更准确地理解系统行为，并为后续优化提供数据支持。

boulder

An ACME-based certificate authority, written in Go.

项目地址：https://gitcode.com/gh_mirrors/bo/boulder

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

356

216

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

本项目是CANN开源社区的核心管理仓库，包含社区的治理章程、治理组织、通用操作指引及流程规范等基础信息

深入分析Boulder项目中Redis限流系统的异常延迟指标

问题现象

系统操作机制分析

异常现象的技术解释

Redis分片一致性验证

系统优化建议

相关内容推荐

热门内容推荐

项目优选