TiKV存储异步写入耗时统计不准确问题分析

2025-05-14 22:20:41作者：幸俭卉

在分布式数据库TiKV中，存储引擎的异步写入耗时统计存在一个关键问题：当前的实现错误地将任务在调度器工作池中的等待时间也计入了存储异步写入耗时指标中。这一问题导致在高负载场景下，TiKV显示的存储异步写入耗时指标会显著高于实际值。

问题背景

TiKV作为TiDB的底层存储引擎，其性能指标监控对于系统调优和问题排查至关重要。其中，存储异步写入耗时(storage async write duration)是一个关键指标，它反映了存储引擎处理写入请求的实际耗时。

通过代码分析发现，该问题源于一次代码重构。在重构过程中，原本只计算存储引擎实际处理时间的逻辑被修改，错误地将任务在调度器工作池中的排队等待时间也纳入了统计范围。

具体来说，在raftkv模块中，存储异步写入耗时的统计起点被提前到了任务进入调度器工作池的时刻，而不是存储引擎真正开始处理的时刻。这导致当TiKV系统负载较高、任务在调度器工作池中排队等待时，统计结果会包含这些额外的等待时间。

这一问题带来的主要影响包括：

正确的实现应该：

该问题已在最新版本中修复，修复方案包括：

这一问题的出现提醒我们：

通过这一问题的分析和修复，TiKV的存储性能监控将更加准确可靠，为系统运维和性能优化提供更可信的数据支持。

登录后查看全文