TiKV事务模块数据不一致问题分析与解决

2025-05-14 22:38:10作者：苗圣禹Peter

问题背景

在TiKV 9.0.0-alpha版本中，开发团队发现了一个严重的数据不一致问题。当运行bank和tpcc这类事务密集型工作负载时，系统会报告数据校验失败，具体表现为索引值与实际记录值不匹配。

在测试环境中，当对数据中心注入网络延迟后运行bank工作负载时，系统检测到了数据不一致错误。错误信息显示bank2_accounts表的byBalance索引值与实际记录值存在差异：索引值为1336，而实际记录值为1397。这种不一致性会导致事务的原子性和一致性被破坏，严重影响系统的可靠性。

经过深入分析，开发团队发现该问题与近期合并的一个PR有关。该PR原本旨在优化事务命令中的读取处理逻辑，但在特定条件下会破坏事务的ACID特性。值得注意的是，最初误认为该问题与dr-auto sync功能相关，但后续验证表明这是一个纯粹的事务模块缺陷。

为了更清晰地验证问题，开发团队设计了简化复现步骤：

测试结果显示，系统报告的余额校验失败，预期值为2000000，实际值为2000957。通过执行ADMIN CHECK TABLE命令进一步确认了数据不一致的具体细节。

该问题的本质在于事务处理过程中对索引和数据的更新出现了不同步。在正常情况下，TiKV的事务机制应该保证索引和数据的一致性更新。但在这个bug中，优化后的读取处理逻辑在某些并发场景下破坏了这个保证。

具体表现为：

开发团队采取了以下措施解决该问题：

这次事件为TiKV开发团队提供了宝贵的经验：

通过这次问题的分析和解决，TiKV的事务处理机制得到了进一步的完善和加强，为后续版本的质量提升奠定了基础。

登录后查看全文