ActionTech dble项目：深入理解自定义全局表检查机制

2025-06-20 06:10:27作者：裴锟轩Denise

引言

在分布式数据库环境中，数据一致性是至关重要的。ActionTech dble作为一个分布式数据库中间件，提供了全局表（Global Table）功能，确保所有节点上的表结构和数据保持一致。然而，在长期运行过程中，由于各种原因可能导致数据不一致。本文将详细介绍dble中的自定义全局表检查机制，帮助开发者理解其工作原理并实现自定义检查策略。

全局表检查的背景与重要性

全局表是dble中的一种特殊表类型，理论上所有分布节点上的全局表应该满足：

完全相同的表结构
完全一致的表数据

但在实际生产环境中，由于网络问题、分布式事务异常或系统故障等因素，可能导致不同节点上的数据出现不一致。这种不一致如果不及时发现和处理，可能会引发严重的业务问题。

dble通过定时检查机制来监控全局表的数据一致性，并提供了一套灵活的接口允许用户自定义检查策略，包括：

检查SQL的定义
结果集的收集方式
一致性比较逻辑
不一致时的处理方式
检查结果的反馈机制

全局表检查的工作原理

全局表检查的核心流程可以分为以下几个阶段：

配置加载阶段：在dble启动或reload时，将全局表检查配置加载到定时任务管理器CronScheduler中。
任务触发阶段：根据配置的cron表达式触发GlobalCheckJob任务。
SQL构造阶段：
- 调用自定义检查器(checker)的getCountSQL方法生成检查SQL
- 调用getFetchCols方法确定需要收集的结果列
- 按照shardingNode结构构造SQL任务
SQL执行阶段：将构造好的SQL下发到各个MySQL节点执行。
结果处理阶段：
- 收集所有节点的执行结果
- 调用resultEquals方法比较结果是否一致
- 根据比较结果调用相应的响应方法
结果反馈阶段：
- 存在不一致时调用failResponse方法
- 所有结果一致时调用resultResponse方法

自定义检查方法详解

1. getCountSQL方法

功能：定义检查全局表时执行的SQL语句。

实现要点：

可以根据业务需求设计不同的检查SQL
常见实现方式包括：
- 使用COUNT(*)统计行数
- 使用CHECKSUM TABLE计算校验和
- 针对特定业务字段的聚合查询

示例：

public String getCountSQL(String dbName, String tName) {
    // 使用CHECKSUM TABLE检查表数据一致性
    return "CHECKSUM TABLE " + dbName + "." + tName;
}

2. getFetchCols方法

功能：指定需要从SQL结果集中提取的列名。

实现要点：

只提取必要的列，减少数据传输和处理开销
列名必须与SQL返回结果的列名一致
对于复杂检查逻辑，可能需要提取多列

示例：

public String[] getFetchCols() {
    // 只需要提取CHECKSUM TABLE结果中的Checksum列
    return new String[]{"Checksum"};
}

3. resultEquals方法

功能：比较两个节点的检查结果是否一致。

实现要点：

需要处理null值情况
可以根据业务需求实现复杂的比较逻辑
对于多列结果，可能需要比较多个字段

示例：

public boolean resultEquals(SQLQueryResult<List<Map<String, String>>> or, 
                          SQLQueryResult<List<Map<String, String>>> cr) {
    // 提取两个结果的第一行
    Map<String, String> oresult = or.getResult().get(0);
    Map<String, String> cresult = cr.getResult().get(0);
    
    // 比较Checksum值是否一致，处理null值情况
    return (oresult.get("Checksum") == null && cresult.get("Checksum") == null) ||
           (oresult.get("Checksum") != null && cresult.get("Checksum") != null &&
            oresult.get("Checksum").equals(cresult.get("Checksum")));
}

4. failResponse方法

功能：当发现数据不一致时的处理逻辑。

实现要点：

可以记录日志、发送告警或触发修复流程
可以获取不一致节点的详细信息
应该考虑实现幂等性，避免重复告警

示例：

public void failResponse(List<SQLQueryResult<List<Map<String, String>>>> res) {
    // 记录错误日志
    String errorMsg = "Global Consistency Check fail for table :" + schema + "-" + tableName;
    logger.error(errorMsg);
    
    // 记录各节点的检查结果
    for (SQLQueryResult<List<Map<String, String>>> r : res) {
        logger.error("Node {} checksum: {}", r.getShardingNode(), 
                    r.getResult().get(0).get("Checksum"));
    }
    
    // 可以扩展发送系统告警
    sendSystemAlert(errorMsg);
}

5. resultResponse方法

功能：处理检查过程中的错误或成功通知。

实现要点：

可以记录检查成功的日志
可以处理SQL执行错误的情况
可以统计检查成功率等指标

示例：

public void resultResponse(List<SQLQueryResult<List<Map<String, String>>>> elist) {
    if (elist.isEmpty()) {
        logger.info("Global Consistency Check success for table: {}-{}", schema, tableName);
    } else {
        logger.error("Global Consistency Check has errors for table: {}-{}", schema, tableName);
        
        // 记录出错节点
        StringBuilder sb = new StringBuilder("Error nodes: ");
        for (SQLQueryResult<List<Map<String, String>>> r : elist) {
            sb.append(r.getShardingNode()).append(",");
        }
        logger.error(sb.toString());
    }
}

自定义检查的开发与部署流程

开发步骤

创建Java项目：使用Maven或Gradle创建标准Java项目。
添加依赖：将dble的相关JAR包添加到项目依赖中。
实现检查类：按照上述五个方法实现自定义检查逻辑。
打包部署：将项目打包成JAR文件，放置到dble的lib或algorithm目录下。

配置示例

在dble的配置文件中，可以这样配置自定义检查器：

<!-- 使用内置CHECKSUM检查方式 -->
<globalTable name="tb_global1" shardingNode="dn1,dn2" cron="0 * * * * ?" globalCheckClass="CHECKSUM"/>

<!-- 使用内置COUNT检查方式 -->
<globalTable name="tb_global2" shardingNode="dn1,dn2" cron="0 * * * * ?" globalCheckClass="COUNT"/>

<!-- 使用自定义检查类 -->
<globalTable name="tb_global3" shardingNode="dn1,dn2" cron="0 * * * * ?" globalCheckClass="com.example.CustomChecker"/>

注意事项

类加载机制：自定义JAR包修改后需要重启dble才能生效，reload可能无法加载新版本。
性能考虑：检查SQL应该尽量高效，避免影响生产环境性能。
错误处理：合理处理SQL执行错误，避免因个别节点不可用导致整个检查失败。
日志记录：建议记录足够的日志信息，便于问题排查。

最佳实践建议

选择合适的检查策略：
- 对于小型表，可以使用COUNT(*)方式
- 对于大型表，建议使用CHECKSUM或抽样检查
- 对于关键业务表，可以实现更精细的业务逻辑检查
合理设置检查频率：
- 高频检查可以更快发现问题，但会增加系统负担
- 低频检查减少系统开销，但可能延迟问题发现
实现分级告警：
- 轻微不一致可以记录日志
- 严重不一致应该立即告警
- 可以设置不一致阈值，超过阈值才触发告警
考虑自动修复机制：
- 对于已知安全的不一致，可以实现自动修复
- 复杂场景建议先告警，人工介入处理