Apache DevLake DORA 仪表盘性能优化实践

2025-06-29 16:21:08作者：滑思眉Philip

Apache DevLake is an open-source dev data platform to ingest, analyze, and visualize the fragmented data from DevOps tools, extracting insights for engineering excellence, developer experience, and community growth.

项目地址：https://gitcode.com/gh_mirrors/inc/devlake

背景介绍

Apache DevLake 是一个开源的数据湖平台，用于收集、分析和可视化软件开发过程中的各项指标。其中 DORA（DevOps Research and Assessment）仪表盘是核心功能之一，用于展示研发效能的关键指标。

性能问题分析

在 v1.0.1-beta5 版本中，DORA 仪表盘的两个关键面板"Overall DORA Metrics"和"Change Failure Rate"存在严重的性能问题。原始SQL查询执行时间长达31.7秒，严重影响用户体验。

通过分析发现，问题出在以下SQL查询结构上：

SELECT
    CASE
      WHEN COUNT(i.id) = 0 AND COUNT(cdc.id) = 0 THEN 'No All'
      WHEN COUNT(i.id) = 0 THEN 'No Incidents'
      WHEN COUNT(cdc.id) = 0 THEN 'No Deployments'
    END AS is_collected
FROM
    (SELECT 1) AS dummy
    LEFT JOIN incidents i ON 1 = 1
    LEFT JOIN cicd_deployment_commits cdc ON 1 = 1;

这种写法会导致数据库执行笛卡尔积运算，当incidents表有3193条记录，cicd_deployment_commits表有177462条记录时，会产生约567亿条中间结果，造成巨大的计算开销。

优化方案

优化思路

避免全表连接：原始查询无条件连接两个大表，这是性能瓶颈的根本原因
提前聚合：先对两个表分别进行计数，再进行结果合并
添加过滤条件：结合项目筛选和时间范围过滤，减少数据处理量

优化后的SQL

SELECT
    CASE
      WHEN i.cnt = 0 AND cdc.cnt = 0 THEN 'No All'
      WHEN i.cnt = 0 THEN 'No Incidents'
      WHEN cdc.cnt = 0 THEN 'No Deployments'
    END AS is_collected
FROM
    (
      SELECT COUNT(*) AS cnt FROM incidents i
      JOIN project_mapping pm ON i.scope_id = pm.row_id AND pm.`table` = i.`table`
      WHERE pm.project_name IN (${project}) AND $__timeFilter(i.created_date)
    ) AS i
    LEFT JOIN (
      SELECT COUNT(*) AS cnt FROM cicd_deployment_commits cdc
      JOIN project_mapping pm ON cdc.cicd_scope_id = pm.row_id AND pm.`table` = 'cicd_scopes'
      WHERE pm.project_name IN (${project}) AND $__timeFilter(cdc.finished_date)
    ) AS cdc ON 1 = 1;