Milvus数据协调模块中的任务队列时间竞争问题分析

2025-05-04 11:50:32作者：俞予舒Fleming

问题背景

在分布式向量数据库Milvus的数据协调模块(datacoord)中，发现了一个关于索引构建任务(indexBuildTask)队列时间的并发访问问题。该问题表现为多个goroutine同时读写任务结构体中的queueTime字段，导致数据竞争(data race)情况。

问题本质

数据竞争发生在indexBuildTask结构体的两个关键方法之间：

SetQueueTime() - 用于设置任务的入队时间
GetQueueTime() - 用于获取任务的入队时间

当这两个方法被不同的goroutine同时调用时，就会出现一个goroutine正在读取queueTime字段，而另一个goroutine正在写入该字段的情况，违反了Go语言的内存安全模型。

问题影响

这种数据竞争可能导致以下问题：

读取到不完整的queueTime值
程序出现不可预测的行为
在极端情况下可能导致程序崩溃
监控指标数据不准确，影响系统运维

技术分析

在Milvus的架构中，datacoord模块负责协调数据节点的工作，其中任务调度器(taskScheduler)管理着各种后台任务的执行。indexBuildTask表示一个索引构建任务，其queueTime字段记录了任务进入队列的时间，用于计算任务等待时间和监控指标。

问题的核心在于：

SetQueueTime()方法在任务入队时被调用
GetQueueTime()方法在收集任务指标时被调用
这两个操作可能同时发生在不同的goroutine中
缺乏适当的同步机制保护queueTime字段

解决方案

解决此类并发访问问题的标准做法是引入互斥锁(Mutex)机制。具体实现方案如下：

在indexBuildTask结构体中添加sync.Mutex字段
在SetQueueTime和GetQueueTime方法中使用该互斥锁
确保所有对queueTime字段的访问都在锁的保护下进行

改进后的代码结构示例：

type indexBuildTask struct {
    // 原有字段
    queueTime time.Time
    // 新增互斥锁
    mu sync.Mutex
}

func (it *indexBuildTask) SetQueueTime(t time.Time) {
    it.mu.Lock()
    defer it.mu.Unlock()
    it.queueTime = t
}

func (it *indexBuildTask) GetQueueTime() time.Time {
    it.mu.Lock()
    defer it.mu.Unlock()
    return it.queueTime
}