InterestingLab/waterdrop MySQL-CDC连接器Binlog过期导致任务恢复失败问题分析

2025-05-27 11:17:40作者：卓炯娓

问题背景

在使用InterestingLab/waterdrop项目的MySQL-CDC连接器进行数据同步时，当任务因故中断后尝试从检查点恢复时，可能会遇到由于MySQL binlog文件被自动清理而导致的恢复失败问题。这种情况在长时间运行的流式数据处理任务中尤为常见。

问题现象

当MySQL-CDC任务运行一段时间后，如果遇到网络中断或其他异常导致任务失败，系统会尝试从最近的检查点恢复任务。然而，在某些情况下恢复会失败，并抛出类似"no longer available on the server"的错误信息，表明MySQL服务器上已经找不到检查点中记录的binlog文件。

根本原因分析

经过深入排查，发现问题的核心在于检查点更新机制存在缺陷：

binlog自动清理机制：MySQL服务器默认会定期清理过期的binlog文件（如腾讯云默认保留120小时）。这是MySQL的正常维护行为，用于防止磁盘空间被无限占用。
检查点更新不及时：当前MySQL-CDC连接器的实现中，只有在检测到数据变更事件时才会更新检查点中的binlog位置信息。如果某张表长时间没有数据变更（如7天），那么检查点中的binlog位置信息就会保持很久以前的记录。
心跳事件处理不足：MySQL会定期发送binlog心跳事件来保持连接活跃，但当前实现没有利用这些心跳事件来更新检查点位置。

技术细节

在IncrementalSourceRecordEmitter#processElement方法中，可以看到只有数据变更事件才会触发检查点更新：

protected void processElement(SourceRecord element, Collector<T> output, 
    SourceSplitStateBase splitState) throws Exception {
    // 只有数据变更才会更新startupOffset
    if (isDataChangeRecord(element)) {
        if (splitState.isIncrementalSplitState()) {
            Offset position = getOffsetPosition(element);
            splitState.asIncrementalSplitState().setStartupOffset(position);
        }
        emitElement(element, output);
    }
    // 其他事件处理...
}

这种实现方式导致了当表长时间没有数据变更时，检查点中的binlog位置信息无法及时更新，最终当binlog被清理后，任务就无法从检查点恢复了。

解决方案

针对这个问题，可以采取以下改进措施：

利用心跳事件更新检查点：修改代码逻辑，使得在接收到binlog心跳事件时也更新检查点位置。这样可以确保即使长时间没有数据变更，检查点中的binlog位置也能保持最新。
增加binlog保留时间检查：在任务启动时，检查MySQL服务器的binlog保留时间设置，并给出警告或建议调整保留时间。
实现自动恢复策略：当检测到所需的binlog已被清理时，可以自动切换到从最新的binlog位置开始读取，或者根据配置决定是否需要进行全量快照。