Cartography项目中EC2启动模板同步的内存溢出问题分析与解决

2025-06-24 22:11:05作者：冯梦姬Eddie

Cartography is a Python tool that pulls infrastructure assets and their relationships into a Neo4j graph database.

项目地址：https://gitcode.com/gh_mirrors/car/cartography

问题背景

在Cartography项目(一个用于将云基础设施数据导入Neo4j图数据库的开源工具)的0.90.0版本中，当处理大规模AWS EC2启动模板数据时，系统出现了内存溢出错误。具体表现为Neo4j事务内存超出限制，导致同步过程中断。

错误现象

系统抛出的具体错误信息显示：

neo4j.exceptions.ClientError: {code: Neo.ClientError.General.TransactionOutOfMemoryError} {message: The allocation of an extra 152.7 MiB would use more than the limit 2.0 GiB. Currently using 1.9 GiB. dbms.memory.transaction.max_size threshold reached}

这表明在执行EC2启动模板同步操作时，Neo4j事务尝试分配额外的152.7MB内存，但此时已经使用了1.9GB内存，超过了Neo4j配置的2GB事务内存上限。

技术分析

根本原因

大数据量处理：当AWS账户中存在大量EC2启动模板时，Cartography尝试在单个事务中处理所有数据，导致内存需求激增。
事务设计问题：原始实现将所有启动模板数据放在一个大型事务中处理，没有采用分批次处理的机制。
Neo4j内存限制：默认配置下，Neo4j对单个事务的内存使用有限制(本例中为2GB)，这是为了防止单个事务占用过多资源影响整个数据库性能。

影响范围

该问题主要影响：

拥有大量EC2启动模板的AWS账户
使用Cartography进行基础设施数据同步的场景
默认Neo4j配置环境下的部署

解决方案

技术实现

开发团队通过以下方式解决了这个问题：

批量处理机制：将大型数据集分割成多个小批次进行处理，每个批次使用独立的事务。
内存优化：确保每个事务处理的数据量都在安全范围内，避免内存峰值。
事务隔离：通过分批次处理，即使某个批次失败也不会影响其他批次的数据。

实现细节

在代码层面，主要修改包括：

重构EC2启动模板同步逻辑，引入分批处理机制
添加适当的批处理大小控制参数
优化数据加载和节点创建的内存使用效率
确保每个批次完成后及时释放资源

最佳实践建议

对于类似的大规模数据处理场景，建议：

评估数据规模：在开发阶段预估可能处理的数据量级，设计相应的批处理策略。
配置调优：根据实际硬件资源调整Neo4j的内存配置参数，如dbms.memory.transaction.max_size。
监控机制：实现内存使用监控，在接近限制时自动调整批处理大小或发出警告。
渐进式优化：对于特别大的数据集，考虑采用更细粒度的分批策略或增量同步机制。

总结

Cartography项目通过优化EC2启动模板同步的内存使用，解决了大规模数据处理时的内存溢出问题。这一改进不仅解决了特定错误，也为处理其他类型的云基础设施大数据提供了参考模式。对于开发者而言，理解这类问题的解决思路有助于设计更健壮的数据处理系统。

Cartography is a Python tool that pulls infrastructure assets and their relationships into a Neo4j graph database.

项目地址：https://gitcode.com/gh_mirrors/car/cartography

登录后查看全文

项目优选

收起

deepin linux kernel

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。