SigNoz升级至v0.75.0时查询服务500错误的排查与解决

2025-05-09 12:43:53作者：蔡丛锟

在将SigNoz监控平台从v0.74.0升级到v0.75.0版本后，用户反馈在仪表板查询服务时遇到了500内部服务器错误。错误信息显示为"API responded with 500 - Something went wrong status: error in builder queries"，这影响了大部分查询功能的正常使用。

问题现象

升级完成后，用户访问服务页面时发现：

仪表板中的查询请求返回500状态码
错误信息指向查询构建器内部错误
服务页面无法正常显示已收集的监控数据

错误日志分析

通过检查query-service的日志，发现关键错误信息：

Missing columns: '__normalized' while processing query

这表明查询语句中引用了名为__normalized的列，但该列在ClickHouse数据库中不存在。

进一步分析日志发现：

查询试图从signoz_metrics.time_series_v4表中获取数据
SQL语句中包含__normalized = true的条件
ClickHouse报错明确指出缺少__normalized列

根本原因

该问题源于版本升级过程中的数据库架构迁移不完整。v0.75.0版本在ClickHouse数据库中添加了新的__normalized列，但：

用户在Helm升级时固定了迁移镜像的标签
导致架构迁移任务未能正确执行
新版本代码依赖的数据库列在实际数据库中不存在

解决方案

解决此问题的步骤如下：

检查并更新Helm values文件
- 确保不固定迁移镜像的标签
- 允许使用最新版本的迁移镜像
手动执行数据库迁移
- 确认迁移任务的状态
- 如有必要，重新运行迁移任务
验证解决方案
- 检查signoz_metrics.time_series_v4表结构
- 确认__normalized列已存在
- 测试查询功能是否恢复正常

经验总结

在升级监控系统时，务必注意数据库架构变更
Helm values文件中不应固定关键组件的镜像版本
升级前应检查迁移任务的设计和执行计划
遇到类似问题时，应优先检查数据库架构与代码期望是否匹配

通过正确执行数据库迁移并确保所有必要的列都存在，用户成功解决了查询服务的500错误，系统功能恢复正常。这个案例提醒我们在进行系统升级时要特别注意数据库架构变更的处理。

登录后查看全文