Triton服务器在启用追踪功能时出现Signal 11崩溃问题分析

2025-05-25 02:38:06作者：滑思眉Philip

Triton推理服务器是一款高性能的机器学习推理服务系统，广泛应用于生产环境中。近期在24.09版本中发现一个与追踪功能相关的稳定性问题，本文将深入分析该问题的表现、成因及解决方案。

问题现象

当Triton服务器配置了OpenTelemetry追踪功能并设置较低的采样率（1-100之间）时，在高QPS（每秒查询数超过100）场景下处理数千个请求后，服务器会出现Signal 11（段错误）导致崩溃重启。这个问题在多种后端模型（TorchScript、Python、ONNX）和不同GPU硬件（T4、A100）上均可复现。

技术背景

Triton服务器提供了完善的追踪功能，支持两种模式：

原生Triton追踪模式
OpenTelemetry标准追踪模式

OpenTelemetry是CNCF旗下的可观测性标准，支持将追踪数据导出到各种后端系统（如Datadog、Jaeger等）。在Triton中，OpenTelemetry追踪功能通过BatchSpanProcessor实现批量处理，该处理器包含几个关键参数：

bsp_max_queue_size：队列最大容量（默认2048）
bsp_max_export_batch_size：最大导出批量大小（默认128）
rate：采样率（1表示100%采样）

问题分析

从错误日志和警告信息可以观察到以下关键线索：

崩溃前出现大量警告："BatchSpanProcessor queue is full - dropping span"
问题仅在OpenTelemetry模式下出现，原生Triton模式下无此问题
问题与QPS直接相关，QPS越高崩溃出现越快
采样率设置为1-100时出现，设置为100以上时正常

这表明问题与OpenTelemetry的批处理队列管理机制有关。在高QPS场景下，当采样率较低时，追踪数据的产生速度可能超过处理速度，导致队列积压最终引发内存访问异常。

解决方案

针对此问题，可以采取以下措施：

调整队列参数：
- 增大bsp_max_queue_size（如设置为20480）
- 适当增大bsp_max_export_batch_size（如128或更高）
优化采样策略：
- 对于极高QPS场景，考虑提高采样率
- 使用动态采样策略，根据系统负载调整采样率
升级版本：
- 该问题已在后续版本中得到修复，建议升级到25.04或更高版本