Recipe-scrapers项目中的GitHub Actions资源优化实践

2025-07-07 14:38:58作者：伍霜盼Ellen

在开源项目recipe-scrapers的持续集成(CI)流程中，开发团队针对GitHub Actions的资源消耗问题进行了深入分析和优化。本文将详细介绍这些优化措施及其技术实现。

问题背景

recipe-scrapers项目采用了多环境测试策略，通常需要同时运行3种操作系统和5种Python版本的组合测试。每个工作流都会完整检出git仓库并执行构建操作，这导致了以下资源浪费：

每次工作流都获取完整的git历史记录，而实际上大部分历史数据并不需要
重复的构建操作消耗了大量CPU、网络和磁盘资源
工作流日志存储占用了不必要的空间

优化方案探索

团队考虑了多种优化方案：

共享构建资源：使用git archive创建源代码快照作为工件，供后续工作流共享
日志管理：清理过期的构建日志以减少存储占用
构建流程简化：减少冗余的构建步骤和日志输出

实施的具体优化措施

1. 日志输出优化

通过减少测试过程中的冗余日志输出，显著降低了日志存储空间需求。团队特别注意到：

构建日志会计入GitHub账户的存储配额
清理旧日志的界面操作不够友好，需要逐个删除
测试工作流(unittests)产生的日志数量最多

2. 工作流执行时间优化

通过以下改进将典型工作流执行时间缩短至约1分钟：

减少重复的构建步骤
优化测试流程
并行化测试任务

3. 构建缓存优化

针对Python依赖管理：

合理使用pip缓存机制
平衡缓存大小与构建效率
确保缓存内容的有效性

技术决策与权衡

在考虑使用git archive共享源代码的方案时，团队进行了以下评估：

优势：
- 避免重复检出完整仓库
- 减少网络和磁盘I/O
- 确保构建环境一致性
挑战：
- 需要额外的完整性检查机制
- 增加工作流间的依赖关系
- 可能引入新的复杂性

最终，考虑到其他优化措施已显著提升性能，团队决定暂不实施git archive方案。

优化效果

经过系列优化后：

单个工作流执行时间从几分钟降至约1分钟
日志存储需求大幅降低
整体CI/CD流程效率显著提升

经验总结

recipe-scrapers项目的CI优化实践展示了：

持续监控资源使用的重要性
渐进式优化的有效性
在性能优化时需要平衡复杂性与收益

这些经验对于中小型开源项目的CI/CD流程优化具有很好的参考价值，特别是在资源有限的情况下，通过针对性优化可以获得显著的性能提升。

recipe-scrapers

Python package for scraping recipes data

项目地址：https://gitcode.com/gh_mirrors/re/recipe-scrapers

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Java

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

364

237

openGauss-server

openGauss kernel ~ openGauss is an open source relational database management system

AscendNPU-IR是基于MLIR（Multi-Level Intermediate Representation）构建的，面向昇腾亲和算子编译时使用的中间表示，提供昇腾完备表达能力，通过编译优化提升昇腾AI处理器计算效率，支持通过生态框架使能昇腾AI处理器与深度调优

C++

111

165

Recipe-scrapers项目中的GitHub Actions资源优化实践

问题背景

优化方案探索