在Apache DevLake中配置MySQL RDS作为数据库的完整指南

2025-06-30 11:24:47作者：魏侃纯Zoe

Apache DevLake is an open-source dev data platform to ingest, analyze, and visualize the fragmented data from DevOps tools, extracting insights for engineering excellence, developer experience, and community growth.

项目地址：https://gitcode.com/gh_mirrors/in/incubator-devlake

Apache DevLake是一个开源的数据湖平台，用于收集、分析和可视化软件开发过程中的各种数据。本文将详细介绍如何将MySQL RDS实例配置为DevLake的数据库，并解决在此过程中可能遇到的各种问题。

准备工作

在开始配置前，您需要准备以下内容：

一个可用的MySQL RDS实例
该实例的访问凭证（用户名、密码、端点地址和端口）
确保RDS实例和运行DevLake的EC2实例位于同一VPC和子网中

配置步骤

修改docker-compose文件

首先需要修改docker-compose.yml文件，注释掉原有的MySQL容器配置：

# 注释掉原有MySQL服务配置
# mysql:
#   image: mysql:8
#   volumes:
#     - mysql-storage:/var/lib/mysql
#   restart: always
#   ports:
#     - 3306:3306
#   environment:
#     MYSQL_ROOT_PASSWORD: admin
#     MYSQL_DATABASE: lake
#     MYSQL_USER: merico
#     MYSQL_PASSWORD: merico
#     TZ: UTC
#   command: --character-set-server=utf8mb4
#     --collation-server=utf8mb4_bin
#     --skip-log-bin

同时注释掉相关的volume和depends_on配置。

配置环境变量

在.env文件中修改数据库连接字符串：

DB_URL=mysql://<用户名>:<密码>@<RDS端点>:3306/lake?charset=utf8mb4&parseTime=True&loc=UTC
E2E_DB_URL=mysql://<用户名>:<密码>@<RDS端点>:3306/lake_test?charset=utf8mb4&parseTime=True&loc=UTC

数据库初始化

在RDS实例上执行以下SQL命令创建数据库并设置正确的字符集：

CREATE DATABASE IF NOT EXISTS lake;
ALTER DATABASE lake CHARACTER SET utf8mb4 COLLATE utf8mb4_bin;

安全组配置

确保EC2实例和RDS实例之间的网络通信畅通：

在RDS安全组中添加入站规则：
- 类型：MySQL/Aurora
- 端口：3306
- 源：EC2实例的安全组ID
在EC2安全组中添加出站规则：
- 类型：MySQL/Aurora
- 端口：3306
- 目标：RDS实例的安全组ID

常见问题解决

错误代码500

如果遇到500错误，可以尝试以下解决方案：

检查.env文件中的DB_URL配置是否正确
确认RDS实例已正确初始化lake数据库
验证安全组规则是否允许EC2访问RDS
检查RDS实例的日志以获取更多错误信息

锁表大小问题

如果遇到"The total number of locks exceeds the lock table size"错误，可以通过修改MySQL配置解决：

# 在docker-compose中增加以下配置（如果是本地MySQL）
command: --innodb-buffer-pool-size=200M

对于RDS实例，可以通过参数组调整innodb_buffer_pool_size参数。

数据查询技巧

配置完成后，您可以通过以下方式查询GitHub相关数据：

查询特定文件的提交记录：

SELECT * FROM commit_files WHERE file_path LIKE '%特定文件名%';

查询Pull Request中修改的文件：

SELECT cf.file_path
FROM commit_files cf
JOIN pull_request_commits prc ON cf.commit_sha = prc.commit_sha
JOIN pull_requests pr ON prc.pull_request_id = pr.id
WHERE pr.id = '目标PRID';