Keycloak Operator中WatchedSecretsTest测试失败问题分析

2025-05-06 23:24:02作者：贡沫苏Truman

问题背景

在Keycloak Operator的持续集成测试中，发现WatchedSecretsTest测试用例出现间歇性失败。该测试主要验证Operator是否能够正确监视Secret资源的变化，并在Secret更新时自动重启Keycloak部署。

测试失败时显示的错误信息表明，部署的Pod名称在预期时间内没有发生变化，这意味着Operator未能检测到Secret变更并触发部署重启。

测试失败时控制台输出显示以下关键错误：

Expecting actual:
  "example-kc-5cc486b464"
not to be equal to:
  "example-kc-5cc486b464"
 within 6 minutes.

这表明测试期望在6分钟内看到部署的Pod名称发生变化（即部署被重启），但实际Pod名称保持不变。

通过检查Operator日志，发现了之前从未出现过的异常堆栈：

NullPointerException：在VertxMDC.putObject方法中抛出，与MDC（Mapped Diagnostic Context）日志上下文相关
IllegalStateException：显示"Timer already cancelled"，表明定时器被意外取消
InformEventSource事件处理失败：在处理StatefulSet事件时同样出现了NullPointerException

这些异常指向了Java Operator SDK框架中的MDC（Mapped Diagnostic Context）处理问题，特别是在Quarkus环境下。MDC用于在日志中添加上下文信息，如当前处理的资源信息。

问题的核心在于Java Operator SDK框架与Quarkus的集成问题：

这些框架层面的问题导致Operator无法正常处理Secret变更事件，进而未能触发部署的更新。

该问题已在Java Operator SDK 3.20版本中通过以下方式解决：

虽然这个问题表现为测试失败，但实际上反映了Operator在特定条件下的可靠性问题：

对于使用Keycloak Operator的用户，建议：

这次测试失败揭示了Java Operator SDK框架与Quarkus集成中的一个潜在问题。通过框架层面的修复，不仅解决了测试失败问题，也提高了Operator在边缘情况下的可靠性。这体现了持续集成测试在发现潜在问题中的价值，以及开源社区协作解决问题的效率。

登录后查看全文