ByConity项目中事务记录冲突问题的分析与解决

2025-07-03 02:48:26作者：廉皓灿Ida

问题背景

在分布式数据库系统ByConity的使用过程中，用户报告了一个关于事务处理的异常问题。系统日志中频繁出现"Transaction commit failed because txn record has been changed by other transactions"的错误信息，同时伴随着FoundationDB(FDB)的KV存储使用量持续增长的现象。

问题现象

系统运行过程中，MergeMutate线程在执行合并操作时频繁报错，错误信息表明事务提交失败，原因是事务记录被其他事务修改。具体表现为：

事务提交失败错误频繁出现，每小时可达数千次
FDB存储使用量持续增长，从初始的70MB不断攀升
偶尔出现FDB事务超时错误

问题分析

通过对日志和系统行为的分析，可以得出以下结论：

事务冲突：多个线程同时尝试修改同一个事务记录，导致事务提交失败。这在分布式系统中是常见现象，但频繁出现则表明系统存在设计或配置问题。
垃圾回收不及时：事务垃圾收集(TXN_GC)机制未能及时清理已完成的事务记录，导致：
- 事务记录积累，占用过多存储空间
- 增加了事务冲突的概率
- 系统整体性能下降
系统负载影响：用户环境中创建了大量CnchMergeTree表(约3000个)，即使没有数据写入，后台的GC、合并等操作也会产生大量事务。

解决方案

针对上述问题，采取了以下解决措施：

调整垃圾收集频率：
- 将TXN_GC的间隔从600000毫秒(10分钟)缩短至60000毫秒(1分钟)
- 增加GLOBAL_GC的执行频率至5000毫秒
优化垃圾收集算法：
- 实现了更积极的事务垃圾收集策略
- 确保及时清理已完成的事务记录，减少存储占用和冲突概率
系统监控建议：
- 定期检查FDB的KV存储使用情况
- 监控事务冲突率和垃圾收集效率
- 根据实际负载动态调整GC参数