解决exo-explore/exo项目在Mali GPU上加载模型时的OOM问题

2025-05-06 23:46:53作者：宣聪麟

Run frontier AI locally.

项目地址：https://gitcode.com/GitHub_Trending/exo8/exo

问题背景

在exo-explore/exo项目的开发过程中，开发者在Mali GPU设备上加载模型时遇到了内存不足(OOM)的问题。这个问题特别出现在使用load_state_dict函数加载模型时，即使增加了GPU节点数量到14个，问题依然存在。每个Mali GPU设备仅有约3GB的内存，这给模型加载带来了挑战。

技术分析

Mali GPU的内存限制

Mali GPU作为移动端GPU，其内存容量通常远小于桌面级GPU。3GB的内存对于现代深度学习模型来说确实较为紧张。当使用load_state_dict加载模型时，系统需要同时保存原始模型和加载的新模型状态，这会暂时增加内存使用量。

数据类型转换的影响

开发者尝试通过修改fix_bf16函数来解决这个问题。这个函数原本用于处理bfloat16数据类型，在Mali GPU上可能不完全支持。修改后的版本提供了两种处理方式：

当SUPPORT_BF16环境变量设置为1时，将bfloat16转换为float16
否则使用llvm_bf16_cast方法进行转换

这种修改虽然解决了数据类型兼容性问题，但可能没有直接解决内存不足的根本问题。

解决方案

内存优化策略

针对Mali GPU的内存限制，可以采取以下优化措施：

分块加载：将模型参数分块加载，而不是一次性加载整个state_dict
内存映射文件：使用内存映射技术加载模型参数，减少内存占用
精简模型：考虑使用更小的模型或量化技术减少内存需求

代码实现改进

在exo-explore/exo项目中，开发者最终通过提交2be4465解决了这个问题。虽然没有详细说明具体修改内容，但可以推测可能涉及：

优化了模型参数的加载流程
改进了内存管理策略
可能引入了更高效的数据类型转换方法

经验总结

这个案例为在资源受限设备上部署深度学习模型提供了宝贵经验：

内存管理至关重要：在移动设备上，内存管理比计算性能更需要关注
数据类型选择：bfloat16虽然能节省内存，但需要考虑设备兼容性
渐进式加载：对于大模型，采用分阶段加载策略可以有效避免OOM

后续影响

这个问题的解决为exo-explore/exo项目在移动设备上的部署铺平了道路。后续开发者dan-online在提交956ef7c中引用了这个解决方案，表明该修复具有广泛的应用价值。

在移动端AI应用日益普及的今天，这类针对特定硬件优化的经验将变得越来越重要，帮助开发者在有限资源下实现高效的模型部署。

Run frontier AI locally.

项目地址：https://gitcode.com/GitHub_Trending/exo8/exo

登录后查看全文

项目优选

收起

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体，本仓库为其提供可复用的 Skills 模块。

Oohos_react_native

React Native鸿蒙化仓库