Tarantool项目中的Memtx MVCC引擎处理DDL语句时崩溃问题分析

2025-06-24 14:27:56作者：尤峻淳Whitney

问题背景

在Tarantool数据库系统中，Memtx作为其内存存储引擎，在启用MVCC(多版本并发控制)功能时，被发现存在一个严重问题：当系统同时处理DDL(数据定义语言)操作和预准备事务语句时，会导致系统崩溃。这一问题在并发环境下尤为突出，可能引发多种不同类型的断言失败。

开发人员通过多个测试用例重现了这一问题，主要表现为三种不同的崩溃场景：

故事删除断言失败：在执行空间删除操作时，系统断言story->del_stmt == NULL失败，表明在删除故事时存在未处理的删除语句。
历史回滚断言失败：在修改空间格式时，系统断言test_stmt->del_story == NULL失败，表明在回滚被删除故事的历史记录时存在问题。
不可见计数断言失败：在执行空间格式修改前后进行数据替换操作时，系统断言link->newer_story != NULL失败，表明在计算不可见记录数量时故事链出现异常。

Memtx MVCC引擎的核心思想是通过维护数据的不同版本来实现并发控制。当DDL操作(如空间删除或格式修改)与普通DML操作(如插入、更新)并发执行时，MVCC需要妥善处理这些操作之间的依赖关系。

问题的根源在于MVCC引擎没有正确处理DDL操作与预准备事务之间的交互。具体表现为：

在多线程环境下，当DDL操作与多个并发事务交织执行时，特别是在使用WAL延迟注入模拟网络延迟的情况下，这些问题会以断言失败的形式暴露出来。测试用例中通过以下方式重现了这些问题：

针对这一问题，Tarantool开发团队进行了深入分析并提出了修复方案，主要改进包括：

这一问题的修复对于使用Tarantool MVCC功能的用户尤为重要，特别是在高并发环境下频繁执行DDL操作的场景。建议用户：

通过这次问题的分析和修复，Tarantool的MVCC引擎在处理DDL操作时的稳定性和可靠性得到了显著提升，为复杂场景下的数据操作提供了更坚实的基础。

登录后查看全文