libarchive项目中bsdtar工具对Zstd压缩包校验和的支持问题
在文件压缩和归档领域,校验和(checksum)是一项重要的数据完整性保障机制。近期在libarchive项目中发现了一个关于bsdtar工具生成Zstandard(.zst)压缩包时缺失校验和的问题,这个问题影响了使用libarchive库的各种工具(如file-roller等)生成的Zstd压缩包。
问题背景
Zstandard(Zstd)是一种现代的高效压缩算法,由Facebook开发并开源。它支持多种校验和算法,默认使用XXH64哈希算法来验证数据完整性。然而,当使用bsdtar工具(基于libarchive)创建.tar.zst归档文件时,生成的压缩包中缺少了这项重要的校验信息。
技术细节分析
通过对比测试可以清楚地观察到这个问题:
- 直接使用bsdtar创建Zstd压缩包时,生成的归档文件没有校验和
- 通过管道将bsdtar输出传递给zstd命令行工具时,生成的归档文件包含XXH64校验和
根本原因在于libarchive的Zstd压缩过滤器(archive_write_add_filter_zstd.c)没有正确设置ZSTD_c_checksumFlag参数。这个参数控制着Zstd压缩过程中是否生成并嵌入校验和。
解决方案实现
libarchive开发团队迅速响应并解决了这个问题。解决方案的关键点包括:
- 在Zstd压缩初始化阶段设置校验和标志
- 不需要提供配置选项,直接默认启用校验和功能
- 保持与zstd命令行工具的行为一致
实现上,主要修改了archive_write_add_filter_zstd.c文件,在适当的位置设置了ZSTD_c_checksumFlag参数。这个修改确保了所有通过libarchive生成的Zstd压缩包都会包含校验和信息。
验证与影响
修改后的验证测试显示:
- bsdtar生成的Zstd压缩包现在正确包含XXH64校验和
- 文件大小略有增加(从127B增加到131B),这是加入校验和的正常开销
- 使用file-roller等图形界面工具生成的Zstd压缩包也同样受益
这项改进增强了数据完整性验证能力,使得通过libarchive生成的Zstd压缩包与直接使用zstd工具生成的文件具有相同的校验特性。对于依赖数据完整性的应用场景(如软件包分发、备份等)来说,这是一个重要的质量提升。
总结
libarchive项目团队快速响应并解决了Zstd校验和缺失的问题,展现了开源社区高效协作的优势。这个改进使得基于libarchive的工具链生成的Zstd压缩包更加可靠,与生态系统中的其他工具保持了一致性。对于用户而言,这意味着更好的数据安全保障,无需额外操作即可获得完整的数据校验能力。
atomcodeClaude Code 的开源替代方案。连接任意大模型,编辑代码,运行命令,自动验证 — 全自动执行。用 Rust 构建,极致性能。 | An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get StartedRust0172
cann-learning-hubCANN 学习中心仓,支持在线互动运行、边学边练,提供教程、示例与优化方案,一站式助力昇腾开发者快速上手。Jupyter Notebook098
Step-3.7-FlashStep-3.7-Flash是一个拥有 1980 亿参数的稀疏混合专家(MoE)视觉语言模型,由 1960 亿参数的语言主干网络和 18 亿参数的视觉编码器组合而成,具备原生图像理解能力。Python00
BitCPM-CANN-8BBitCPM-CANN 是首个基于华为昇腾 NPU 原生构建的端到端 1.58 位(三值化)大语言模型训练系统。该系统将量化感知训练(QAT)集成到 Megatron-LM 框架中,并结合 MindSpeed 加速,覆盖了从自定义三值算子到基于昇腾 910B 的分布式并行训练的完整训练栈。Python00
MiniCPM5-1BMiniCPM5-1B,这是 MiniCPM5 系列的首款模型。它是一个专为端侧、本地部署和资源受限场景打造的 10 亿参数密集型 Transformer 模型,达到了 10 亿参数级开源模型的 SOTA 水平Jinja00
skillhubopenJiuwen 生态的 Skill 托管与分发开源方案,支持自建与可选 ClawHub 兼容。Python0239