CGraph项目动态引擎优化：减少内存分配提升执行性能

2025-07-06 23:58:40作者：袁立春Spencer

【A common used C++ & Python DAG framework】一个通用的、无三方依赖的、跨平台的、收录于awesome-cpp的、基于流图的并行计算框架。欢迎star & fork & 交流

项目地址：https://gitcode.com/gh_mirrors/cg/CGraph

背景介绍

CGraph是一个基于C++实现的并行计算框架，其核心引擎负责调度和管理计算任务的执行。在框架的动态执行引擎GDynamicEngine中，我们发现了一个潜在的性能优化点：在执行过程中频繁分配和释放局部vector容器，这对性能产生了不利影响。

问题分析

在GDynamicEngine的afterElementRun()方法中，系统需要收集后续待执行的元素列表。原始实现使用了std::vector容器来存储这些元素指针。虽然vector提供了方便的接口和动态扩容能力，但在高频调用的场景下，其内存分配和释放操作会带来显著的开销。

通过性能测试发现：

在32个串行任务的情况下，使用原始数组替代vector可以获得明显的性能提升
在32个并行任务的情况下，性能差异不大，甚至可能出现轻微的性能下降
在ARM架构上，vector的内存访问操作(ldr指令)成为性能瓶颈之一

优化方案

基于以上分析，我们提出了两种优化思路：

使用固定大小数组替代vector：对于大多数场景，后续关联的节点数量不会太大(假设≤1000)，可以使用栈内存分配的原始数组来存储元素指针，避免了动态内存分配的开销。
优化run_before_容器类型：将element->run_before_从set容器改为vector容器，进一步减少内存访问开销。

实现效果

经过优化后，测试结果显示：

在串行任务测试(test2)中，执行时间从7秒降低到4.5秒左右，性能提升约35%
内存访问次数显著减少，特别是在ARM架构上，减少了ldr指令的执行次数
上下文切换次数大幅降低，特别是非自愿上下文切换

技术原理

这种优化之所以有效，主要基于以下技术原理：

栈内存优势：固定大小数组使用栈内存分配，比堆内存分配更快，且不需要考虑释放问题
缓存友好性：连续内存访问模式更符合CPU缓存预取机制
减少系统调用：避免了频繁的堆内存分配和释放操作，减少了系统调用次数
降低内存碎片：固定大小分配减少了内存碎片产生的可能性

后续改进

虽然当前优化取得了良好效果，但仍有进一步改进空间：

针对不同场景(串行/并行)采用不同的优化策略
实现自适应容器选择机制，根据任务数量动态选择最优容器类型
对单一依赖(linkable)元素进行特殊处理，进一步减少不必要的容器操作

总结

通过对CGraph动态引擎中内存访问模式的优化，我们显著提升了框架的执行性能。这一案例也展示了在性能关键路径上，即使是简单的数据结构选择，也可能对整体性能产生重大影响。未来我们将继续探索更多优化可能性，为用户提供更高效的并行计算体验。

【A common used C++ & Python DAG framework】一个通用的、无三方依赖的、跨平台的、收录于awesome-cpp的、基于流图的并行计算框架。欢迎star & fork & 交流

项目地址：https://gitcode.com/gh_mirrors/cg/CGraph

登录后查看全文

热门内容推荐

1 编程实践项目探索指南：从零构建技术能力体系 2 技术解构式学习：从0到1构建你的编程知识体系 3 构建自己的技术世界：build-your-own-x项目的实践探索指南 4 解锁编程技能的实践之旅：从零构建你的技术世界 5 技术实践探索：从零开始构建核心系统的实践指南 6 亲手锻造技术引擎：从0到1构建核心系统的实践指南

最新内容推荐

AcFunDown视频下载工具完全指南还在为数字笔记抓狂？这款开源神器让手写批注效率提升300%Windows笔记本电池健康管理全指南：从根源解决电池损耗问题 gmx_MMPBSA分子间相互作用索引错误的深度诊断与解决 Axure RP 11 本地化方案：Mac中文界面优化与原型设计工具汉化全指南如何高效获取教育资源？这款工具让教材下载效率提升80%视频元数据深度编辑：专业技巧与案例网盘直链下载技术解析与应用指南如何用DeepSeek-R1推理模型提升复杂任务解决能力：完整指南 5个突破瓶颈技巧：硬件优化工具让你的电脑性能提升30%

项目优选

收起

deepin linux kernel

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

flutter_flutter

Ascend Extension for PyTorch

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。