Polly项目中CircuitBreaker策略半开状态处理异常的分析与修复

2025-05-16 22:59:46作者：牧宁李

Polly is a .NET resilience and transient-fault-handling library that allows developers to express policies such as Retry, Circuit Breaker, Timeout, Bulkhead Isolation, and Fallback in a fluent and thread-safe manner. From version 6.0.1, Polly targets .NET Standard 1.1 and 2.0+.

项目地址：https://gitcode.com/gh_mirrors/po/Polly

问题背景

在Polly这个流行的.NET弹性策略库中，CircuitBreaker（断路器）是一个核心组件，用于在系统出现故障时提供保护机制。最近发现了一个严重问题：当断路器处于半开(Half-Open)状态时，如果探测调用(probe call)抛出未处理的异常，断路器会永久卡在半开状态，无法自动恢复。

断路器状态机制

Polly的断路器有三种状态：

闭合(Closed)：正常状态，所有请求都允许通过
断开(Open)：故障状态，所有请求都被拒绝
半开(Half-Open)：恢复测试状态，允许少量请求通过以检测系统是否恢复

在半开状态下，断路器会允许一个探测请求通过。根据这个请求的结果，断路器决定是回到闭合状态（系统恢复）还是保持断开状态（系统仍存在问题）。

问题详细分析

问题的核心在于半开状态下对未处理异常的处理逻辑。根据设计：

处理异常（Handled Exception）应视为失败，可能导致断路器回到断开状态
未处理异常（Unhandled Exception）应保持半开状态，允许后续探测

但实际实现中存在逻辑缺陷：当半开状态下的探测调用抛出未处理异常时，断路器错误地认为这不是成功也不是失败，导致状态无法更新，永久卡在半开状态。

技术实现细节

问题出在CircuitBreakerResilienceStrategy.cs文件中的处理逻辑。原始代码判断未处理异常时存在缺陷：

if (await _handler(args).ConfigureAwait(context.ContinueOnCapturedContext))
{
    await _controller.OnActionFailureAsync(outcome, context).ConfigureAwait(context.ContinueOnCapturedContext);
}
else if (!outcome.IsVoid)
{
    await _controller.OnActionSuccessAsync(outcome, context).ConfigureAwait(context.ContinueOnCapturedContext);
}

修复方案是简化逻辑，明确区分处理与未处理结果：

if (await _handler(args).ConfigureAwait(context.ContinueOnCapturedContext))
{
    await _controller.OnActionFailureAsync(outcome, context).ConfigureAwait(context.ContinueOnCapturedContext);
}
else
{
    await _controller.OnActionSuccessAsync(outcome, context).ConfigureAwait(context.ContinueOnCapturedContext);
}