ByConity事务提交失败问题分析与解决方案

2025-07-03 00:47:00作者：秋泉律Samson

问题现象

在ByConity分布式数据库系统中，用户在执行数据导入操作（包括ORC格式导入和远程INSERT操作）时，会遇到事务提交失败的异常情况。系统报错信息显示"Transaction commit failed because txn record has been changed by other transactions"，错误代码为11003。

该问题在并发插入同一张表时尤为明显，会导致事务无法正常提交，影响数据写入的可靠性。错误发生时，系统会抛出异常并中断当前操作，给用户带来不便。

问题根源

经过技术团队深入分析，发现问题源于服务发现模块在处理主机名和IP地址时的混淆。具体来说：

当配置service_discovery.mode = local时，系统在处理事务记录时会同时使用主机名和IP地址两种标识方式
系统在比较这些标识时直接使用了简单的字符串比较操作(==)，而实际上主机名和对应的IP地址虽然指向同一实体，但字符串表示形式不同
这种不一致性导致事务记录在验证时出现匹配失败，系统误判为"事务记录已被其他事务修改"而拒绝提交

技术背景

在分布式数据库系统中，事务管理是核心功能之一。ByConity采用了两阶段提交协议来保证分布式事务的ACID特性：

准备阶段：协调者向所有参与者发送准备请求，参与者执行事务但不提交，记录undo/redo日志
提交阶段：如果所有参与者都准备成功，协调者发送提交命令，参与者完成事务提交

在这个过程中，每个事务都会有一个全局唯一的事务记录(Transaction Record)，其中包含了参与事务的节点信息。正是这些节点信息的表示不一致导致了本问题。

解决方案

技术团队提供了两种解决方案：

临时解决方案

对于无法立即升级系统的用户，可以通过设置环境变量来临时解决问题：

export MY_HOST_IP=<your_host_name>

例如，在server-0节点上设置：

export MY_HOST_IP=server-0

这种方法虽然不够规范，但可以在不修改代码的情况下缓解问题。

代码修复方案

对于能够重新编译部署的用户，建议应用以下代码补丁：

// 在ServiceDiscoveryLocal.cpp中添加主机名到IP的解析逻辑
try {
    auto ip = DNSResolver::instance().resolveHost(ep.host).toString();
    if (!ip.empty()) {
        ep.host = ip;  // 将主机名统一替换为IP地址
    }
} catch (...) {
    // 异常处理
}