Boulder项目中自动化暂停僵尸客户端的实现机制

2025-06-07 17:34:33作者：苗圣禹Peter

An ACME-based certificate authority, written in Go.

项目地址：https://gitcode.com/gh_mirrors/bo/boulder

背景与问题分析

在证书颁发机构的核心系统Boulder中，长期存在一个运维挑战：如何处理那些持续尝试但从未成功完成证书申请的客户端。这些客户端通常被称为"僵尸客户端"，它们会不断发送失败的授权请求，消耗系统资源却不产生实际价值。

通过前期手动暂停机制的实施（#7406），团队已经验证了暂停这类客户端的可行性。手动暂停分为两批进行：第一批针对90天内平均每天50次授权失败且无成功记录的账户；第二批针对90天内平均每天40次类似情况的账户。几周的观察期显示，这种暂停机制效果良好且几乎没有用户投诉，为自动化方案奠定了基础。

技术实现方案

基于速率限制的自动化检测

系统将利用现有的键值对速率限制框架来实现自动化检测，具体设计如下：

速率限制键设计：采用enum:regId:domain格式作为存储桶键，与现有的FailedAuthorizationsPerDomainPerAccount限制保持一致。
时间窗口配置：
- 检测周期设为90天，与最长证书有效期对齐
- 阈值设为3600次失败（90天×40次/天）
成功验证重置机制：当订阅者成功验证某个标识符的授权时，对应计数桶将被重置为0，避免误判活跃用户。

自动暂停执行流程

当检测到某个账户-标识符对达到阈值时，系统将：

调用SA.PauseIdentifiers()方法将该对加入暂停表
后续该账户针对该标识符的新订单请求将被速率限制
返回的速率限制通知中包含自助解暂停的URL

系统架构考量

这一设计体现了几个重要的架构原则：

渐进式严格：从手动暂停到自动暂停的过渡，通过实际运营数据验证假设
资源保护：优先保护系统资源，同时保留用户自助恢复通道
可观测性：基于明确的指标（失败次数/时间窗口）而非模糊规则
自动化友好：与现有速率限制框架深度集成，减少维护成本

实施效果预期

该机制实施后预计将带来以下改善：

资源利用率提升：减少无效请求对系统资源的占用
运维效率提高：自动化替代人工干预
用户体验优化：明确的失败原因和自助恢复途径
安全增强：限制潜在滥用行为

这种自动化机制代表了证书颁发机构运维从被动响应到主动预防的重要转变，通过智能化的资源管理提升了整体系统的健壮性和可持续性。

An ACME-based certificate authority, written in Go.

项目地址：https://gitcode.com/gh_mirrors/bo/boulder

登录后查看全文

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

flutter_flutter

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

ohos_react_native

React Native鸿蒙化仓库

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。