Superset数据库迁移问题分析与解决方案

2025-04-29 10:20:42作者：宣聪麟

问题背景

在将Superset从4.0.2版本升级到4.1.1版本的过程中，开发团队遇到了数据库迁移失败的问题。具体表现为在执行初始化数据库操作时，系统报错提示"column tables.catalog_perm does not exist"，导致升级流程无法完成。

错误现象分析

当团队尝试通过ArgoCD部署新版本的Superset应用时，所有Pod成功启动，但初始化数据库的作业(init-db job)失败。错误日志显示系统在尝试访问tables表中的catalog_perm列时失败，因为该列在数据库中不存在。

这一错误发生在安全管理器(Security Manager)尝试同步角色定义和权限的过程中，具体是在创建缺失的数据源权限时触发的。系统期望tables表包含catalog_perm列，但实际数据库结构中缺少该列。

根本原因

通过分析Superset的源代码和迁移历史，可以确定该问题源于版本升级过程中遗漏了一个关键的数据库迁移脚本。在Superset 4.1.1版本中，新增了一个名为"58d051681a3b_add_catalog_perm_to_tables.py"的迁移脚本，该脚本负责向tables表和slices表添加catalog_perm列。

当团队直接从4.0.2版本的数据库备份恢复到新环境并部署4.1.1版本时，这个关键的迁移步骤被跳过，导致数据库结构与代码期望的结构不匹配。

解决方案

针对这一问题，我们推荐以下解决步骤：

手动执行数据库迁移：在部署新版本前，应先执行superset db upgrade命令，确保所有迁移脚本都被正确应用。这个命令会按顺序执行所有待处理的迁移脚本，包括添加catalog_perm列的那个。
验证迁移状态：检查数据库中的alembic_version表，确认"58d051681a3b"这个修订版本是否已成功应用。如果该修订不存在，说明迁移确实被跳过了。
手动添加缺失列：如果自动迁移仍然失败，可以考虑手动执行SQL语句添加缺失的列。对于PostgreSQL数据库，可以执行类似以下的SQL命令：
```
ALTER TABLE tables ADD COLUMN catalog_perm VARCHAR(1000);
ALTER TABLE slices ADD COLUMN catalog_perm VARCHAR(1000);
```
检查自定义迁移脚本：在案例中，团队使用了自定义的迁移脚本(如abcd906efgh1)。需要确保这些自定义脚本与官方迁移脚本没有冲突，并且执行顺序正确。