SkyWalking Java Agent在WebFlux中异常场景下的traceId获取问题分析

2025-05-08 06:12:58作者：贡沫苏Truman

问题背景

在基于Spring WebFlux的响应式编程环境中，开发者使用Apache SkyWalking Java Agent进行分布式链路追踪时，发现了一个关键问题：当接口主动抛出异常时，无法通过TraceContext.traceId()获取到当前请求的traceId。这不仅影响了日志的关联性，也给问题排查带来了困难。

问题复现

通过一个简单的WebFlux接口可以稳定复现该问题：

@GetMapping("/error_speech")
public Mono<R<String>> errorSpeech() {
    final String s = TraceContext.traceId();
    log.info("test--error_speech : {}", s);
    return Mono.error(new RuntimeException("error"));
}

在异常发生时，日志中traceId显示为"N/A"，同时全局异常处理器中也无法获取到有效的traceId。

技术原理分析

WebFlux的执行模型

WebFlux基于Project Reactor实现，采用响应式编程范式。与传统Servlet模型不同，WebFlux的请求处理是异步的，操作被封装在Publisher(如Mono/Flux)中，通过事件驱动的方式执行。

SkyWalking的上下文传播机制

SkyWalking通过Java Agent在运行时修改字节码，植入追踪逻辑。在传统Servlet模型中，上下文通常通过ThreadLocal传播。但在响应式环境中，由于线程切换频繁，ThreadLocal机制失效。

问题根源

响应式编程的线程模型：WebFlux操作可能在不同线程上执行，导致ThreadLocal存储的上下文丢失
异常处理路径：主动抛出的异常会绕过某些SkyWalking的拦截点
上下文传播中断：在Mono.error的创建和传播过程中，追踪上下文未能正确传递

解决方案探讨

临时解决方案

对于需要获取traceId的场景，可以在方法入口处保存traceId：

@GetMapping("/error_speech")
public Mono<R<String>> errorSpeech() {
    final String traceId = TraceContext.traceId();
    return Mono.defer(() -> {
        log.info("Stored traceId: {}", traceId);
        return Mono.error(new RuntimeException("error"));
    });
}