NServiceBus中OpenTelemetry追踪的采样策略问题解析
背景介绍
在使用NServiceBus与OpenTelemetry集成时,开发者可能会遇到一个现象:当消息生产者没有启用OpenTelemetry时,消费者端的活动(Activity)和跨度(Span)不会被创建。这种情况特别容易在Web应用程序作为生产者时出现,即使消费者已经正确配置了OpenTelemetry。
问题本质
这个现象的根本原因在于OpenTelemetry的默认采样策略。当ASP.NET Core应用程序(即使没有显式配置OpenTelemetry)作为消息生产者时,它会自动创建一个活动(Activity),但这个活动会被标记为不采样(采样标志为"-00")。当这个消息被NServiceBus消费者接收时,由于OpenTelemetry默认采用基于父活动的采样策略(ParentBasedSampler),它会尊重父活动的采样决定,因此不会创建新的活动。
技术细节
OpenTelemetry的默认采样策略组合是ParentBasedSampler(new AlwaysOnSampler()),这意味着:
- 对于没有父活动的根活动,总是采样(AlwaysOn)
- 对于有父活动的情况,则继承父活动的采样决定
在ASP.NET Core应用程序中,即使没有显式配置OpenTelemetry,框架也会自动创建活动用于内部诊断。这些活动默认不会被采样(标志为"-00")。当这样的应用程序作为NServiceBus消息生产者时:
- ASP.NET创建的活动被NServiceBus捕获并作为消息上下文的一部分
- 由于该活动未被采样,NServiceBus不会为其创建子活动
- 消息头中的traceparent会以"-00"结尾
- 消费者接收到消息后,看到父活动未被采样,因此也不创建新活动
解决方案
要解决这个问题,可以在消费者端调整采样策略,覆盖父活动的采样决定。具体方法是配置一个自定义的ParentBasedSampler,为remoteParentNotSampled情况指定AlwaysOnSampler:
using var traceProvider = Sdk.CreateTracerProviderBuilder()
.AddSource("NServiceBus.Core")
.AddConsoleExporter()
.SetSampler(
new ParentBasedSampler(
rootSampler: new AlwaysOnSampler(),
remoteParentNotSampled: new AlwaysOnSampler()
)
)
.Build();
这种配置表示:
- 对于根活动,总是采样
- 对于远程父活动未被采样的情况,也总是采样
- 其他情况(如本地父活动)则保持默认行为
最佳实践建议
- 在微服务架构中,建议所有服务都统一配置OpenTelemetry,避免出现部分服务未配置的情况
- 对于必须处理来自未配置OpenTelemetry服务的消息的场景,采用上述自定义采样策略
- 考虑在组织内部制定统一的OpenTelemetry配置标准,确保采样行为的一致性
- 在测试环境中验证不同服务组合下的追踪行为,确保关键业务流程都能被正确追踪
总结
NServiceBus与OpenTelemetry的集成提供了强大的分布式追踪能力,但需要注意采样策略的影响。理解OpenTelemetry的采样机制和ASP.NET Core的自动活动创建行为,可以帮助开发者更好地控制追踪数据的收集。通过适当配置采样策略,可以确保关键消息流在任何情况下都能被正确追踪。
atomcodeClaude Code 的开源替代方案。连接任意大模型,编辑代码,运行命令,自动验证 — 全自动执行。用 Rust 构建,极致性能。 | An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get StartedRust099- DDeepSeek-V4-ProDeepSeek-V4-Pro(总参数 1.6 万亿,激活 49B)面向复杂推理和高级编程任务,在代码竞赛、数学推理、Agent 工作流等场景表现优异,性能接近国际前沿闭源模型。Python00
MiMo-V2.5-ProMiMo-V2.5-Pro作为旗舰模型,擅⻓处理复杂Agent任务,单次任务可完成近千次⼯具调⽤与⼗余轮上 下⽂压缩。Python00
GLM-5.1GLM-5.1是智谱迄今最智能的旗舰模型,也是目前全球最强的开源模型。GLM-5.1大大提高了代码能力,在完成长程任务方面提升尤为显著。和此前分钟级交互的模型不同,它能够在一次任务中独立、持续工作超过8小时,期间自主规划、执行、自我进化,最终交付完整的工程级成果。Jinja00
Kimi-K2.6Kimi K2.6 是一款开源的原生多模态智能体模型,在长程编码、编码驱动设计、主动自主执行以及群体任务编排等实用能力方面实现了显著提升。Python00
MiniMax-M2.7MiniMax-M2.7 是我们首个深度参与自身进化过程的模型。M2.7 具备构建复杂智能体应用框架的能力,能够借助智能体团队、复杂技能以及动态工具搜索,完成高度精细的生产力任务。Python00