BorgBackup中优化SSH仓库提取速度的技术实践

2025-05-19 10:49:05作者：羿妍玫Ivan

Deduplicating archiver with compression and authenticated encryption.

项目地址：https://gitcode.com/gh_mirrors/bo/borg

背景与问题分析

在使用BorgBackup进行数据备份恢复时，用户经常遇到从SSH仓库提取数据速度显著低于备份速度的情况。典型表现为单核CPU满载但网络带宽利用率极低（约30Mb/s），而直接通过SSH执行远程提取却能跑满千兆带宽。这种现象在处理大型数据集合（如15TB级别）时尤为明显。

核心发现

通过技术验证发现，提取性能差异主要与以下两个技术因素相关：

分块参数配置：默认的buzhash,12,16,12,4095参数虽然提供了最佳的重复数据删除效果（4KB目标块大小与存储设备块大小对齐），但会产生大量小数据块，导致：
- 内存开销剧增（仓库索引和块索引）
- 文件提取时需要处理更多块元数据
- 网络通信开销显著增加
传输模式差异：直接SSH执行避免了客户端/服务器模式的协议开销，但牺牲了部分安全控制和灵活性。

优化方案

分块参数调优

建议采用平衡方案：

--chunker-params buzhash,16,19,16,4095

此配置：

将目标块大小提升至64KB级别
实测提取速度可提升至200-300Mb/s
重复数据删除率约为1:1.2（相比4KB块的1:1.5有所下降）

实践建议

新仓库测试：调整参数后应使用新仓库确保块大小一致性
性能监控：通过borg benchmark验证不同参数下的CRUD性能
业务权衡：
- 对备份速度敏感场景：适当增大块大小
- 对存储空间敏感场景：可接受较小块大小带来的性能损失

技术原理

BorgBackup的分块算法采用滚动哈希（buzhash）实现内容定义分块。较小的块大小虽然能提升重复数据删除率，但会导致：

索引结构膨胀
网络往返次数增加
序列化/反序列化开销上升

在SSH传输场景下，这些开销会被放大，因为每个块都需要独立的协议交互。而直接远程执行避免了这部分开销，但失去了客户端缓存等优化机制。

总结

通过合理调整分块参数，可以在重复数据删除效率和提取性能之间取得平衡。建议用户根据实际业务需求进行参数调优测试，特别是处理大型数据集合时，块大小的选择对整体性能影响显著。对于Proxmox虚拟机镜像等大文件备份场景，64KB-512KB的块大小通常能提供较好的综合性能表现。

Deduplicating archiver with compression and authenticated encryption.

项目地址：https://gitcode.com/gh_mirrors/bo/borg

登录后查看全文

项目优选

收起

deepin linux kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

昇腾LLM分布式训练框架

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

Oohos_react_native

React Native鸿蒙化仓库