Apache DevLake 磁盘空间不足导致流水线卡死问题分析与解决方案

2025-06-29 00:50:40作者：余洋婵Anita

问题背景

在使用 Apache DevLake 进行大规模代码仓库数据采集时，当多个流水线并行执行且磁盘空间不足时，Git 提取器会因为无法写入临时文件而卡死。更严重的是，此时即使用户尝试通过界面取消流水线，系统也无法正常响应，导致整个采集过程陷入僵局。

问题现象

当系统磁盘空间被占满时，用户会观察到以下现象：

正在运行的流水线突然停止响应
在 DevLake 界面点击"取消"按钮无效
系统日志显示 I/O 错误或磁盘空间不足警告
后续的流水线调度也无法正常进行

技术分析

根本原因

缺乏磁盘空间监控机制：当前系统没有实时监控磁盘使用情况的机制，无法在空间不足时提前预警或采取保护措施。
取消操作不彻底：现有的取消流水线功能仅更新数据库状态，没有清理已占用的临时文件和资源，导致磁盘空间无法释放。
进程隔离不足：流水线任务与主进程耦合度过高，当资源不足时会影响整个系统的稳定性。

影响范围

该问题主要影响以下场景：

大规模代码仓库的批量采集
长时间运行的复杂分析任务
资源受限的部署环境

解决方案

1. 磁盘空间监控与预警

实现一个后台守护进程，定期检查磁盘空间使用情况：

func checkDiskSpace(path string) (uint64, uint64, error) {
    var stat syscall.Statfs_t
    err := syscall.Statfs(path, &stat)
    if err != nil {
        return 0, 0, err
    }
    // 计算可用空间
    free := stat.Bavail * uint64(stat.Bsize)
    total := stat.Blocks * uint64(stat.Bsize)
    return free, total, nil
}

2. 增强取消流水线功能

改进后的取消操作应包含资源清理步骤：

func CancelPipeline(pipelineId uint64) error {
    // 原有取消逻辑...
    
    // 新增资源清理
    if err := cleanPipelineResources(pipelineId); err != nil {
        log.Printf("清理资源失败: %v", err)
        return err
    }
    return nil
}

func cleanPipelineResources(pipelineId uint64) error {
    // 清理临时文件
    tmpDir := fmt.Sprintf("/tmp/devlake-%d", pipelineId)
    if err := os.RemoveAll(tmpDir); err != nil {
        return err
    }
    
    // 清理日志文件
    logPath := fmt.Sprintf("/var/log/devlake/pipeline-%d.log", pipelineId)
    return os.Remove(logPath)
}