MyDumper在备份时区表时产生超大日志文件的问题分析

2025-06-29 11:40:02作者：沈韬淼Beryl

问题现象

在使用MyDumper工具备份Percona 8.4.2数据库时，发现了一个异常现象：当备份包含时区信息的数据库时，MyDumper 0.16.9-1版本会生成一个异常庞大的日志文件（达到120MB），而之前的0.16.5-1版本则表现正常。

日志文件中充斥着大量关于mysql.time_zone_transition表的进度信息，统计显示该表相关的日志条目达到了127万条。同时，备份过程也比预期耗时更长。

问题根源

经过分析，这个问题源于MyDumper 0.16.9版本中引入的一个变更。具体来说，PR #1646将MIN_CHUNK_STEP_SIZE参数值从1000修改为了10，这个改动导致了在处理具有复合主键的表时，分块策略过于激进。

mysql.time_zone_transition表恰好具有复合主键（多列主键），其中第一列的值分布正常，但第二列的值分布较为分散。当MIN_CHUNK_STEP_SIZE设置为10时，MyDumper会尝试基于第二列进行精细分块，从而产生了大量不必要的查询和日志记录。

解决方案

目前有两种解决方案：

临时解决方案：在备份命令中显式指定分块参数
```
mydumper -r 1000:0:0 [其他参数]
```
这个参数设置会强制MyDumper只基于第一列进行分块，避免对第二列进行不必要的分块操作。
永久解决方案：等待官方发布修复版本。开发团队已经确认这个问题，并将MIN_CHUNK_STEP_SIZE参数恢复为1000，预计很快会发布修复版本。

技术细节

对于数据库备份工具来说，处理大表时通常采用分块策略来提高效率和减少锁的影响。MyDumper的分块机制基于表的主键，对于复合主键表，它会依次尝试基于各主键列进行分块。

在正常情况下，较大的MIN_CHUNK_STEP_SIZE值（如1000）可以确保：

减少不必要的分块操作
降低数据库查询次数
提高备份效率
减少日志输出量

而当这个值设置过小时（如10），对于像时区表这样具有特殊数据分布的表，就会导致：

产生大量微小的分块
执行过多的边界值查询
生成大量进度日志
降低整体备份性能

最佳实践

对于数据库备份操作，建议：

定期测试备份工具的新版本，确认其行为符合预期
监控备份过程中的日志增长情况
对于特殊表结构（如复合主键、特殊数据分布的表），考虑单独处理
保持备份环境的时区信息与生产环境一致

总结

MyDumper在处理具有复合主键的特殊表时，分块参数的设置不当会导致性能问题和日志膨胀。通过调整分块参数或等待官方修复版本，可以解决这一问题。数据库管理员应当了解备份工具的工作原理，以便在遇到类似问题时能够快速诊断和解决。

登录后查看全文

项目优选

收起

deepin linux kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

昇腾LLM分布式训练框架

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

Oohos_react_native

React Native鸿蒙化仓库