Apache DevLake 在 AWS ECS 上的部署问题分析与解决方案

2025-07-03 00:44:29作者：蔡丛锟

Apache DevLake is an open-source dev data platform to ingest, analyze, and visualize the fragmented data from DevOps tools, extracting insights for engineering excellence, developer experience, and community growth.

项目地址：https://gitcode.com/gh_mirrors/incu/incubator-devlake

Apache DevLake 是一个开源的数据湖平台，用于收集、分析和可视化软件开发过程中的各种指标。本文将深入分析在 AWS ECS 上部署 DevLake 时遇到的 Grafana 和 Config-UI 容器启动失败问题，并提供完整的解决方案。

问题背景

在 AWS ECS 上部署 Apache DevLake 时，用户遇到了 Grafana 和 Config-UI 容器无法正常启动的问题。这导致整个部署流程无法完成。通过分析提供的 ECS 任务定义文件，我们可以识别出几个关键配置问题。

核心组件依赖关系

DevLake 系统由四个主要容器组成，它们之间存在严格的启动依赖关系：

MySQL 容器：作为数据存储后端，需要最先启动
DevLake 核心容器：依赖 MySQL 服务
Grafana 容器：提供数据可视化，依赖 MySQL 服务
Config-UI 容器：配置界面，依赖 DevLake 核心服务

主要问题分析

1. 容器启动顺序问题

在 ECS 任务定义中，虽然设置了 dependsOn 参数，但 ECS 的依赖管理机制与 Docker Compose 有所不同。ECS 仅确保容器按顺序启动，但不保证依赖服务完全就绪。

2. 环境变量配置问题

Grafana 容器中的 GF_SERVER_ROOT_URL 配置为 "http://localhost:4000/grafana"，这会导致 Grafana 无法正确处理重定向请求。正确的做法应该是使用容器名称作为主机名。

3. 资源分配问题

任务定义中为每个容器分配了相同的 CPU 和内存资源（768 CPU 单位，2048 MB 内存），这可能导致资源争用，特别是在 Fargate 模式下。

解决方案

1. 改进容器健康检查

为每个容器添加健康检查配置，确保 ECS 能够准确判断服务是否真正可用：

"healthCheck": {
  "command": ["CMD-SHELL", "curl -f http://localhost:8080/health || exit 1"],
  "interval": 30,
  "timeout": 5,
  "retries": 3,
  "startPeriod": 60
}

2. 优化环境变量配置

更新 Grafana 的环境变量配置：

"environment": [
  {
    "name": "GF_SERVER_ROOT_URL",
    "value": "http://grafana:3000"
  },
  {
    "name": "GF_USERS_DEFAULT_THEME",
    "value": "light"
  }
]

3. 调整资源分配策略

根据各容器的实际需求调整资源分配：

MySQL: 1024 CPU 单位，4096 MB 内存
DevLake: 2048 CPU 单位，4096 MB 内存
Grafana: 512 CPU 单位，1024 MB 内存
Config-UI: 512 CPU 单位，1024 MB 内存

4. 添加服务发现配置

在 ECS 服务配置中启用服务发现，确保容器间可以通过服务名称互相访问：

"serviceConnectConfiguration": {
  "enabled": true,
  "services": [
    {
      "portName": "devlake-port",
      "discoveryName": "devlake"
    },
    {
      "portName": "grafana-tcp",
      "discoveryName": "grafana"
    }
  ]
}