WAL-G S3存储交互性能问题分析与解决
2025-06-22 19:45:45作者:傅爽业Veleda
问题背景
在使用WAL-G工具进行PostgreSQL数据库备份和恢复操作时,用户遇到了严重的性能问题。具体表现为:
- 备份操作耗时异常,从数小时到数天不等
- 恢复操作同样耗时过长
- 简单的文件列表命令(wal-g st ls)会触发超过72,000次HTTP请求
- 文件读取命令(wal-g st cat)会触发超过4,500次HTTP请求
- 路径处理存在兼容性问题,当路径包含双斜杠时与MinIO存储不兼容
问题分析
经过深入调查,发现这些问题主要源于WAL-G的特定版本存在严重缺陷。具体表现为:
-
HTTP请求爆炸:正常情况下,S3存储操作应该是高效的批量请求,但问题版本中出现了请求数量异常增多的情况。例如,读取单个文件本应只需少量请求,却产生了数千次请求。
-
路径处理缺陷:在处理存储路径时,某些情况下会生成带有双斜杠的路径(如"mets-api-db//"),这与MinIO存储服务的兼容性要求冲突,导致操作失败。
-
跨数据中心性能差异:有趣的是,当集群与S3端点位于不同数据中心时,问题更为严重。测试数据显示,同数据中心操作产生4,529次HTTP请求,而异地位操作则产生了惊人的49,055次请求。
解决方案
问题的根本原因在于使用了WAL-G的预发布版本(v3.0.1和v3.0.2)。这些版本中存在严重的性能缺陷和兼容性问题。解决方案非常简单:
升级到WAL-G的稳定版本v3.0.3后,所有性能问题和兼容性问题都得到了彻底解决。
经验总结
-
生产环境慎用预发布版本:这次事件再次证明,生产环境应该避免使用预发布版本的软件,特别是数据库相关工具。
-
性能监控的重要性:建立完善的性能监控体系可以及早发现类似异常,避免问题扩大。
-
兼容性测试的必要性:在使用特定存储后端(如MinIO)时,应进行充分的兼容性测试。
-
版本更新策略:保持工具链的及时更新,但需要经过充分的测试验证。
结论
WAL-G作为PostgreSQL的重要备份工具,在稳定版本中表现良好。这次事件主要源于使用了存在缺陷的预发布版本。通过升级到v3.0.3稳定版,所有性能问题和兼容性问题都得到了完美解决。这提醒我们在生产环境中要谨慎选择软件版本,并建立完善的升级和测试流程。
登录后查看全文
热门项目推荐
相关项目推荐
kernelopenEuler内核是openEuler操作系统的核心,既是系统性能与稳定性的基石,也是连接处理器、设备与服务的桥梁。C0131
let_datasetLET数据集 基于全尺寸人形机器人 Kuavo 4 Pro 采集,涵盖多场景、多类型操作的真实世界多任务数据。面向机器人操作、移动与交互任务,支持真实环境下的可扩展机器人学习00
mindquantumMindQuantum is a general software library supporting the development of applications for quantum computation.Python059
PaddleOCR-VLPaddleOCR-VL 是一款顶尖且资源高效的文档解析专用模型。其核心组件为 PaddleOCR-VL-0.9B,这是一款精简却功能强大的视觉语言模型(VLM)。该模型融合了 NaViT 风格的动态分辨率视觉编码器与 ERNIE-4.5-0.3B 语言模型,可实现精准的元素识别。Python00
GLM-4.7-FlashGLM-4.7-Flash 是一款 30B-A3B MoE 模型。作为 30B 级别中的佼佼者,GLM-4.7-Flash 为追求性能与效率平衡的轻量化部署提供了全新选择。Jinja00
AgentCPM-ReportAgentCPM-Report是由THUNLP、中国人民大学RUCBM和ModelBest联合开发的开源大语言模型智能体。它基于MiniCPM4.1 80亿参数基座模型构建,接收用户指令作为输入,可自主生成长篇报告。Python00
最新内容推荐
项目优选
收起
deepin linux kernel
C
27
11
OpenHarmony documentation | OpenHarmony开发者文档
Dockerfile
496
3.64 K
Ascend Extension for PyTorch
Python
300
338
暂无简介
Dart
744
180
React Native鸿蒙化仓库
JavaScript
297
346
本项目是CANN提供的数学类基础计算算子库,实现网络在NPU上加速计算。
C++
868
479
openEuler内核是openEuler操作系统的核心,既是系统性能与稳定性的基石,也是连接处理器、设备与服务的桥梁。
C
305
130
Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台,包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分,采用java语言实现,可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用
Java
11
1
🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer(第 2 版)》、《程序员面试金典(第 6 版)》题解
Java
65
20
仓颉编程语言测试用例。
Cangjie
43
872