Boulder项目中账户密钥轮换后的JWS验证错误分析

2025-06-07 05:44:26作者：申梦珏Efrain

问题背景

在开发基于PHP的ACME客户端库时，测试人员发现与Boulder服务器交互时出现了一个有趣的异常现象。当执行账户密钥轮换操作后，随后的账户详情请求偶尔会返回"JWS verification error"错误。值得注意的是，这个问题在使用Pebble测试服务器时不会出现，仅在Boulder环境中重现。

问题现象

测试流程包含以下关键步骤：

检查本地存储的账户是否存在
- 存在则使用本地密钥获取服务器上的账户详情
- 不存在则创建新账户并存储密钥
更新联系人信息
更新服务协议
执行密钥轮换操作

在多次运行测试脚本时，Boulder服务器会在密钥轮换后的首次请求中随机出现JWS验证失败的情况。经过多次重试后，相同的密钥最终会被接受，这表明密钥本身是正确的。

根本原因分析

经过深入调查，发现问题根源在于Boulder的账户缓存机制。Boulder的Web前端(WFE)微服务会对ACME账户数据(包括公钥)进行短暂缓存。在Let's Encrypt生产环境中，默认缓存时间为5秒。

关键点在于：

缓存条目在密钥轮换操作后不会自动失效
当客户端使用新轮换的密钥发起请求时，服务器可能仍在返回缓存的旧密钥信息
这导致了JWS签名验证失败，因为客户端使用新密钥签名，而服务器可能还在用旧密钥验证

解决方案

针对此问题，有两种可行的解决方案：

调整客户端行为：在密钥轮换操作后添加5秒的等待时间，确保缓存过期后再继续后续操作。这种方法简单但不够优雅，且增加了不必要的延迟。
修改服务器配置：通过将WFE配置中的accountCache部分的ttl设置为0s来完全禁用缓存。这种方法彻底解决了问题，但可能影响服务器性能。

最佳实践建议

对于开发者实现ACME客户端时，建议：

在密钥轮换操作后实现适当的重试机制，特别是针对JWS验证错误
考虑添加短暂的延迟以兼容缓存机制
在测试环境中可以禁用缓存以获得更稳定的测试结果
实现健壮的错误处理和日志记录，便于诊断类似问题

总结

这个问题揭示了在分布式系统中缓存一致性带来的挑战。虽然缓存能显著提高性能，但在涉及安全敏感操作如密钥轮换时，需要特别注意缓存失效策略。对于Boulder项目而言，未来可以考虑在密钥轮换操作时主动使相关缓存失效，以提供更一致的行为。

对于ACME客户端开发者，理解服务器端的缓存行为有助于编写更健壮的代码，特别是在处理密钥轮换等敏感操作时。通过适当的错误处理和重试策略，可以确保客户端在各种边缘情况下都能可靠工作。

boulder

An ACME-based certificate authority, written in Go.

项目地址：https://gitcode.com/gh_mirrors/bo/boulder

登录后查看全文