zstd压缩工具在Graviton2架构上的性能优化分析

2025-05-07 22:15:06作者：裴麒琰

Zstandard - Fast real-time compression algorithm

项目地址：https://gitcode.com/gh_mirrors/zs/zstd

zstd作为一款高性能压缩工具，其在不同硬件平台上的表现一直是开发者关注的焦点。本文针对zstd在AWS Graviton2（基于ARM Neoverse-N1架构）上的性能表现进行深入分析，特别是对比1.4.4与1.5.5+版本间的性能差异。

性能现象观察

在实际测试中，我们发现一个有趣的现象：在64核Graviton2实例上，zstd 1.5.5+版本的多线程压缩性能相比1.4.4版本有所下降。具体表现为：

使用1.4.4版本时，10GB enwik9测试数据压缩速度达到4175.6 MB/s
升级到1.5.5后，相同测试条件下速度降至3472.8 MB/s

根本原因分析

经过深入调查，我们发现这一性能差异主要源于两个关键因素：

任务粒度变化：从1.4.4到1.5.5版本，默认的窗口大小（window size）发生了变化，导致单个任务的工作量增加。具体表现为：
- 1.4.4版本使用4MB的任务大小
- 1.5.5+版本使用8MB的任务大小
并行度限制：在测试10GB数据时，1.5.5版本产生的并行任务数减少，无法充分利用64核处理器的全部计算资源。这是因为：
- 总数据量固定时，更大的任务尺寸意味着更少的并行任务
- 多线程性能受限于最慢的那个线程

解决方案与实践

针对这一问题，我们推荐以下优化方案：

调整窗口大小参数：通过--zstd=wlog=20参数可以将窗口大小恢复为1MB，这样任务尺寸会回退到4MB，与1.4.4版本保持一致。测试显示，这一调整可使1.5.5版本性能恢复到4078.7 MB/s。
合理设置线程数：对于64核处理器，建议将线程数设置为64而非128，以避免资源争用：
```
zstd enwik9 -T64 -b --zstd=wlog=20
```
测试数据选择：对于性能评估，建议使用真实数据集（如enwik9）而非合成数据，以获得更准确的结果。

架构特性考量

Graviton2采用的Neoverse-N1架构具有以下特点：

64个物理核心
4MB L1d和L1i缓存
64MB L2缓存
32MB L3缓存

这些特性使得它对任务粒度特别敏感。过大的任务尺寸可能导致缓存利用率下降，而过小的任务又可能增加调度开销。因此，找到合适的任务分割策略对性能至关重要。

版本演进建议

对于zstd的未来版本，在ARM服务器架构上可以考虑：

根据CPU核心数自动优化默认任务尺寸
提供更精细的任务分割控制参数
针对Neoverse等服务器级ARM架构进行特定优化

通过本文的分析，我们不仅解决了特定版本间的性能差异问题，也为在高性能ARM服务器上优化zstd提供了系统性的思路。这些经验同样适用于其他计算密集型应用在类似架构上的性能调优。

Zstandard - Fast real-time compression algorithm

项目地址：https://gitcode.com/gh_mirrors/zs/zstd

登录后查看全文

热门内容推荐

1 编程实践项目探索指南：从零构建技术能力体系 2 技术解构式学习：从0到1构建你的编程知识体系 3 构建自己的技术世界：build-your-own-x项目的实践探索指南 4 解锁编程技能的实践之旅：从零构建你的技术世界 5 技术实践探索：从零开始构建核心系统的实践指南 6 亲手锻造技术引擎：从0到1构建核心系统的实践指南

最新内容推荐

AcFunDown视频下载工具完全指南还在为数字笔记抓狂？这款开源神器让手写批注效率提升300%Windows笔记本电池健康管理全指南：从根源解决电池损耗问题 gmx_MMPBSA分子间相互作用索引错误的深度诊断与解决 Axure RP 11 本地化方案：Mac中文界面优化与原型设计工具汉化全指南如何高效获取教育资源？这款工具让教材下载效率提升80%视频元数据深度编辑：专业技巧与案例网盘直链下载技术解析与应用指南如何用DeepSeek-R1推理模型提升复杂任务解决能力：完整指南 5个突破瓶颈技巧：硬件优化工具让你的电脑性能提升30%

项目优选

收起

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

deepin linux kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

cann-learning-hub

CANN 学习中心仓，支持在线互动运行、边学边练，提供教程、示例与优化方案，一站式助力昇腾开发者快速上手。

Jupyter Notebook

昇腾LLM分布式训练框架