Noseyparker项目中的GitHub Actions缓存优化实践

2025-07-06 17:19:57作者：裘晴惠Vivianne

Nosey Parker is a command-line tool that finds secrets and sensitive information in textual data and Git history.

项目地址：https://gitcode.com/gh_mirrors/no/noseyparker

缓存机制概述

在持续集成(CI)环境中，有效的缓存机制可以显著提升构建效率。Noseyparker项目最初在GitHub Actions中遇到了缓存效果不佳的问题，导致每次构建都需要重新编译大量依赖项，严重影响了CI流程的执行速度。

问题分析

项目维护者发现，即使在缓存命中情况下，构建过程仍然会重新编译大部分代码。经过深入调查，发现了几个关键问题点：

缓存命中率低：GitHub Actions的10GB缓存限制导致频繁的缓存淘汰，特别是对于大型项目而言，这个容量明显不足。
Docker构建缓存失效：在构建Docker镜像时，apt安装步骤无法被缓存，导致后续所有构建层都需要重新生成。
依赖项构建时间长：项目中使用的Vectorscan库构建耗时较长，且无法被有效缓存。

优化措施

针对上述问题，项目团队实施了一系列优化措施：

依赖项分离：将Vectorscan库拆分为独立的crate发布，使得这个耗时较长的构建过程可以被单独缓存。这一改动使得缓存命中时的构建时间缩短了30-50%，大多数CI作业能在2分钟内完成。
缓存策略调整：优化了GitHub Actions的缓存配置，确保关键依赖项能够被优先保留。
Docker构建优化：尝试了多种Docker缓存策略，包括：
- 使用GitHub Actions缓存（受限于容量问题）
- 尝试registry缓存模式（可能造成GHCR存储空间膨胀）
- 采用min缓存级别（仅缓存最终镜像层）

经验总结

通过这次优化过程，项目团队获得了以下宝贵经验：

依赖管理：将大型依赖项分离为独立组件可以显著提升缓存效率。
缓存容量规划：对于中型以上项目，GitHub Actions的10GB缓存限制可能成为瓶颈，需要合理规划缓存内容。
Docker构建特性：Docker的构建缓存机制与常规CI缓存有所不同，需要特别处理。
权衡取舍：在缓存效率与存储空间之间需要找到平衡点，特别是使用registry缓存时。

未来方向

虽然当前已经取得了一定优化效果，但在Docker镜像构建方面的缓存问题仍有改进空间。可能的未来方向包括：

探索更精细的Dockerfile分层策略
实现自定义的缓存清理机制
考虑使用外部缓存服务

这些优化实践不仅适用于Noseyparker项目，对于其他使用类似技术栈的开源项目也具有参考价值。

Nosey Parker is a command-line tool that finds secrets and sensitive information in textual data and Git history.

项目地址：https://gitcode.com/gh_mirrors/no/noseyparker

登录后查看全文

项目优选

收起

deepin linux kernel

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

昇腾LLM分布式训练框架

CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体，本仓库为其提供可复用的 Skills 模块。