KeepHQ项目中通用事件API的startedAt时间戳问题分析

2025-05-23 02:57:43作者：羿妍玫Ivan

问题背景

在KeepHQ项目的通用事件API接口使用过程中，发现了一个关于时间戳处理的问题。当用户通过API创建告警事件时，虽然请求体中包含了startedAt字段，但系统并未正确使用该值，而是使用了其他时间戳替代。这个问题影响了告警事件的准确时间记录，可能导致告警持续时间计算错误。

问题现象

通过分析用户提供的示例请求和响应，可以清晰地看到问题表现：

请求体示例：

{
    "name": "Host OMITTED is unreachable!",
    "status": "firing",
    "severity": "high",
    "lastReceived": "2025-03-25T14:04:54Z",
    "startedAt": "2025-03-25T13:55:50Z"
}

响应体示例：

{
    "startedAt": "2025-03-25 14:04:54.177000",
    "lastReceived": "2025-03-25T14:04:54.000Z"
}

从对比中可以明显看出，虽然用户明确指定了startedAt为"2025-03-25T13:55:50Z"，但系统返回的startedAt值却与lastReceived相同，完全忽略了用户提供的原始值。

技术分析

问题根源

经过深入代码分析，发现问题的根源在于时间戳处理逻辑存在缺陷。系统在处理通用事件API请求时，对alert_start_time字段进行了两次弹出(pop)操作：

第一次弹出将值赋给startedAt
第二次弹出将值赋给lastReceived

这种重复操作导致startedAt的原始值被覆盖，最终使用了系统生成的时间戳而非用户提供的时间戳。

影响范围

这个问题会影响所有通过通用事件API创建告警的场景，特别是：

需要精确记录告警开始时间的监控系统集成
依赖告警持续时间进行计算和分析的业务逻辑
需要准确时间线的事件追踪和报告功能

解决方案

修复建议

针对这个问题，建议的修复方案是：

确保alert_start_time只被弹出一次
将弹出的值同时赋给startedAt和lastReceived
保留用户原始提供的时间戳，不进行不必要的覆盖

具体代码修改如下：

# 修改前
startedAt = event.pop("alert_start_time", "")
lastReceived = event.pop("alert_start_time", "")

# 修改后
startedAt = lastReceived = event.pop("alert_start_time", "")