Made-With-ML项目内存优化实战：解决trainer.fit()内存溢出问题

2025-05-02 17:23:12作者：齐冠琰

GokuMohandas/Made-With-ML: 是一个展示机器学习项目实例的 website，它没有使用数据库。适合用于了解和学习机器学习项目实例，特别是对于需要了解和学习机器学习实际应用的场景。特点是机器学习项目实例、无数据库。

项目地址：https://gitcode.com/gh_mirrors/ma/Made-With-ML

在本地机器上运行深度学习模型训练时，内存不足是一个常见挑战。本文将以Made-With-ML项目为例，深入分析trainer.fit()方法导致内存溢出的原因，并提供多种有效的解决方案。

问题本质分析

当在本地机器（如8GB RAM、i7 8th gen 12核CPU）上执行trainer.fit()时，内存不足问题主要源于以下几个因素：

模型规模：项目中使用的scibert模型参数多达1.1亿个，模型文件大小约442MB。加载模型本身就需要消耗大量内存。
批量数据处理：每个前向传播不仅需要加载模型参数，还需要存储所有相关的激活值和梯度。批量大小(batch_size)直接决定了内存需求的线性增长。
并行处理开销：多工作进程(num_workers)设置会导致每个工作进程都需要加载自己的模型副本，进一步增加内存压力。

有效解决方案

1. 调整批量大小

将batch_size从默认值降低到32可以显著减少内存需求。这是最直接有效的解决方案，因为内存消耗与batch_size呈线性关系。

2. 优化工作进程数

将num_workers设置为1可以避免多进程带来的内存开销。虽然这会降低数据加载速度，但在内存受限的环境中是最稳妥的选择。

3. 系统级内存管理

对于Ray框架用户，可以通过设置ray.init(object_store_memory=10**9)来限制对象存储的内存使用量，防止内存被过度占用。

4. 操作系统选择

实践表明，在Ubuntu系统上这些优化措施效果更佳。Windows系统由于路径处理和内存管理机制的不同，可能仍会遇到问题。

进阶建议

监控内存使用：训练过程中保持约70%的内存使用率是相对安全的，为系统留出足够的缓冲空间。
GPU加速：如果设备支持GPU，使用GPU训练不仅能解决内存问题，还能大幅提升训练速度（从30分钟缩短到1分钟左右）。
理解参数关系：num_workers、resources_per_worker和batch_size需要协同调整。增加工作进程数理论上可以支持更大的批量，但前提是有足够的内存容量。

总结

在资源受限的本地环境中运行深度学习项目，需要权衡训练效率与资源消耗。通过合理配置训练参数，即使是8GB内存的中端笔记本也能成功完成模型训练。关键在于理解内存消耗的来源，并针对性地进行调整优化。

GokuMohandas/Made-With-ML: 是一个展示机器学习项目实例的 website，它没有使用数据库。适合用于了解和学习机器学习项目实例，特别是对于需要了解和学习机器学习实际应用的场景。特点是机器学习项目实例、无数据库。

项目地址：https://gitcode.com/gh_mirrors/ma/Made-With-ML

登录后查看全文

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

flutter_flutter

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

ohos_react_native

React Native鸿蒙化仓库

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

openGauss-server

openGauss kernel ~ openGauss is an open source relational database management system