VictoriaMetrics中vmstorage缓存不一致导致查询数据异常问题分析

2025-05-16 16:02:24作者：俞予舒Fleming

问题现象

在VictoriaMetrics集群版本v1.93.16中，用户发现一个奇怪的查询现象：当选择较长的查询时间范围时，某些数据点会神秘消失；而选择另一个时间范围时，这些数据又能正常查询出来。更令人困惑的是，重启vmstorage组件后，之前消失的数据又能被正确查询到。

问题根源

经过深入分析，发现问题出在vmstorage的索引数据库查询缓存机制上。具体来说，当查询超时(DeadlineExceeded)发生时，系统错误地将部分结果缓存了起来，导致后续查询无法获取完整数据。

在VictoriaMetrics的索引查询流程中，系统会先在当前索引数据库(current indexdb)中查找，如果找不到再到历史索引数据库(previous indexdb)中查找。查询结果会被缓存以提升后续查询性能。然而，当查询超时时，系统没有正确处理这种特殊情况，仍然将部分结果缓存起来，造成了数据不一致。

技术细节

在index_db.go文件的查询逻辑中，存在以下关键代码片段：

is := extDB.getIndexSearch(accountID, projectID, deadline)
extMetricIDs, err = is.searchMetricIDs(qtChild, tfss, tr, maxMetrics)
extDB.putIndexSearch(is)
extDB.putMetricIDsToTagFiltersCache(qtChild, extMetricIDs, tfKeyExtBuf.B)

这段代码的问题在于，无论查询是否成功(包括超时情况)，都会将结果缓存起来。对于超时这种特殊错误，实际上查询可能只是暂时失败，后续重试可能会成功，因此不应该缓存部分结果。

解决方案

修复方案相对简单但有效：在缓存结果前，显式检查错误类型是否为DeadlineExceeded。只有当错误不是超时类型时，才将结果缓存。修改后的代码如下：

is := extDB.getIndexSearch(accountID, projectID, deadline)
extMetricIDs, err = is.searchMetricIDs(qtChild, tfss, tr, maxMetrics)
if !errors.Is(ErrDeadlineExceeded, err) {
    extDB.putIndexSearch(is)
    extDB.putMetricIDsToTagFiltersCache(qtChild, extMetricIDs, tfKeyExtBuf.B)
}

这个修改确保在查询超时的情况下不会缓存部分结果，避免了数据不一致的问题。同时，对于其他类型的错误，仍然保持原有的缓存行为。