Vitess项目中vexplain并发写入导致panic问题分析

2025-05-11 08:09:09作者：齐添朝

项目地址：https://gitcode.com/gh_mirrors/vit/vitess

背景介绍

Vitess是一个开源的数据库集群系统，用于水平扩展MySQL数据库。在最新版本的开发过程中，测试人员发现了一个与查询执行计划解释功能(vexplain)相关的并发写入问题，导致系统出现panic。

问题现象

在运行新规划器的端到端测试时，测试用例"union_as_a_derived_table"出现了间歇性失败。错误信息显示在执行特定SQL查询时，vexplain功能返回了EOF错误。深入分析后发现，底层实际上发生了并发map写入导致的panic。

技术分析

问题核心在于Vitess的vexplain实现中，用于记录操作统计信息的两个map字段没有进行并发保护：

interOpStats：记录每个基本操作返回的行数
shardsStats：记录每个基本操作查询的分片数

当这些map被多个goroutine同时写入时，就会触发Go语言的并发map写入panic。这种情况特别容易发生在包含UNION ALL等并行执行操作的查询中。

问题复现路径

测试执行包含UNION ALL的复杂查询
查询规划器生成并行执行计划
多个goroutine同时执行UNION ALL的不同分支
每个分支都尝试更新相同的统计map
并发写入导致panic

解决方案思路

要解决这个问题，可以考虑以下几种方案：

使用sync.Mutex对map访问进行同步保护
为每个goroutine创建独立的统计对象，最后合并结果
使用sync.Map替代普通map
在并行执行前预先分配所有需要的统计条目

从性能和代码简洁性考虑，第一种方案使用互斥锁可能是最直接有效的解决方案。

影响范围

这个问题主要影响：

使用vexplain功能分析查询执行计划的场景
包含并行执行操作(如UNION ALL)的复杂查询
高并发环境下执行查询分析

最佳实践建议

在开发类似功能时，应该注意：

明确区分并发安全和不安全的数据结构
对共享资源的访问进行适当的同步控制
在并行算法设计时考虑数据竞争的可能性
编写并发场景的测试用例

总结

这个案例展示了在数据库系统中处理并行查询时可能遇到的典型并发问题。通过分析Vitess中vexplain功能的实现，我们了解到即使是辅助性的统计功能也需要仔细考虑并发安全性。这类问题的解决不仅修复了当前bug，也为系统未来的并发设计提供了宝贵经验。

vitess

项目地址：https://gitcode.com/gh_mirrors/vit/vitess

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Java

RuoYi-Vue3

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统