Thanos Receive组件高延迟问题分析与修复

2025-05-17 16:49:35作者：裴锟轩Denise

问题背景

在Thanos监控系统的Receive组件从v0.34.1升级到v0.35.0-dev版本后，用户报告出现了高延迟问题。具体表现为：

大量in-flight请求堆积
频繁出现上下文截止时间超时错误
数据摄入延迟显著增加

问题分析

通过深入分析，发现问题根源在于Receive组件的异步转发机制实现存在缺陷。在v0.35.0-dev版本中，虽然引入了异步工作线程池来处理远程写入请求，但实际执行时却变成了顺序处理。

关键问题代码位于peerWorker的RemoteWriteAsync方法中。该方法虽然将工作项放入工作队列，但立即阻塞等待结果（res := <-w.workResult），导致请求无法真正并行处理。

技术细节

在Thanos Receive组件的转发机制中：

接收到的远程写入请求会被分发到多个目标节点
理论上这些转发操作应该并行执行以提高吞吐量
但实际实现中，由于等待结果的同步操作，导致转发变成了串行执行

这种实现方式在请求量较大时会导致：

工作线程池无法充分利用
请求排队时间增加
整体吞吐量下降
延迟显著上升

解决方案

修复方案的核心思想是将结果等待与请求发送分离：

将结果等待移出RemoteWriteAsync方法
让工作线程直接处理结果回调
保持真正的异步处理流程

这样修改后，多个转发请求可以真正并行执行，不再相互阻塞。

验证效果

修复后验证显示：

转发延迟显著降低
系统吞吐量恢复正常
工作线程利用率提高
不再出现请求堆积情况

经验总结

这个案例提醒我们在实现异步处理机制时需要注意：

确保异步操作真正并行执行
避免在异步流程中引入同步等待点
在高并发场景下，同步等待会成为性能瓶颈
完善的指标监控能帮助快速定位性能问题

对于使用Thanos Receive组件的用户，建议在升级版本时关注转发延迟指标，并在高负载环境下进行充分的性能测试。

thanos

Highly available Prometheus setup with long term storage capabilities. A CNCF Incubating project.

项目地址：https://gitcode.com/gh_mirrors/than/thanos

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

RuoYi-Vue3

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

147

leetcode

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Java