MyDumper大表导出问题分析与解决方案

2025-06-29 03:19:35作者：晏闻田Solitary

问题现象

在使用MyDumper进行大规模数据库备份时(约200GB)，用户遇到了一个严重问题：工具陷入无限循环，持续生成大量空文件(0字节)。日志显示MyDumper不断尝试从fs_group_refference表导出数据范围，但每次导出都失败，导致文件数量急剧增加。

环境信息

操作系统：CentOS 8
MyDumper版本：0.18.1和0.19.1均出现此问题
数据库规模：约200GB
执行命令：包含--rows=500000参数

问题分析

通过对比旧版本(0.10)和新版本(0.18/0.19)的行为差异，可以确定问题与行数分块参数--rows有关。在旧版本中，该表仅生成3个文件(4MB、4MB和30KB)，而新版本却产生了成千上万个空文件。

技术原理上，MyDumper在处理大表时会尝试按照指定行数进行分块导出。当表结构或数据分布特殊时，这种分块机制可能导致导出失败，但程序未能正确处理这种失败情况，反而持续重试，形成无限循环。

解决方案

移除行数分块参数：最简单的解决方法是去掉--rows=500000参数，让MyDumper自行决定导出方式。
使用文件大小限制：如果需要控制单个文件大小，可以使用-F参数指定文件大小上限(单位MB)，例如-F 256表示每个文件不超过256MB。
结合使用：对于特别大的表，可以同时使用-F参数和适当的行数限制，但需要谨慎测试。

最佳实践建议

对于新版MyDumper，建议先进行小规模测试，确认参数效果后再进行生产环境备份
监控备份过程中的文件生成情况，特别是当表结构复杂或数据量极大时
考虑使用--chunk-filesize替代--rows进行更可控的分块
对于关键业务数据库，保留旧版本MyDumper作为备用方案

总结

MyDumper新版本在处理大表导出时的行为发生了变化，用户需要调整参数使用方式。通过合理配置分块参数，可以避免空文件问题，同时保证备份效率和数据完整性。

mydumper

Official MyDumper Project

项目地址：https://gitcode.com/gh_mirrors/my/mydumper

登录后查看全文

项目优选

收起

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

434

395

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

C++

1.01 K

atomcode

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Vue

1.68 K

989