AutoGluon时间序列模型在MPS后端的内存问题分析与解决方案

2025-05-26 06:48:27作者：乔或婵

问题背景

在AutoGluon项目的时间序列(TimeSeries)模块测试过程中，开发团队发现了一个与MacOS平台MPS(Metal Performance Shaders)后端相关的内存问题。当在MacOS系统上运行时间序列模型的测试用例时，多个测试案例因内存不足而失败，而在Linux和Windows平台上相同的测试却能顺利通过。

问题现象

测试失败的主要表现为PyTorch在MPS后端上抛出内存不足错误，典型错误信息如下：

RuntimeError: MPS backend out of memory (MPS allocated: 528.00 MB, other allocations: 1.20 MB, max allowed: 7.93 GB). Tried to allocate 256 bytes on shared pool.

错误发生在执行时间序列模型训练和评分的过程中，特别是当尝试进行张量运算时。测试涉及多个时间序列模型，包括PatchTSTModel等。

技术分析

MPS后端简介

MPS是苹果提供的Metal Performance Shaders框架，PyTorch通过MPS后端支持在MacOS设备上利用GPU加速计算。与CUDA在NVIDIA GPU上的作用类似，MPS为MacOS设备提供了硬件加速能力。

问题根源

经过分析，这个问题可能由以下几个因素导致：

MPS内存管理机制：MPS后端默认设置了内存使用上限(7.93GB)，当接近这个限制时会拒绝新的内存分配请求，即使系统仍有可用内存。
PyTorch与MPS的兼容性：PyTorch对MPS后端的支持相对较新，可能存在一些未优化的内存使用模式。
测试环境差异：MacOS平台的GPU内存管理策略与Linux/Windows平台不同，导致相同测试在不同平台表现不一致。

解决方案

开发团队采取了以下措施解决这个问题：

显式禁用MPS后端：在测试环境中强制使用CPU进行计算，避免MPS后端的内存限制问题。这是通过修改测试配置实现的临时解决方案。
长期优化方向：
- 优化时间序列模型的内存使用模式
- 增加对MPS后端的特定内存管理配置
- 考虑实现平台自适应的内存管理策略

对开发者的建议

对于在MacOS平台上使用AutoGluon时间序列功能的开发者，可以采取以下措施：

如果遇到类似内存问题，可以尝试设置环境变量PYTORCH_MPS_HIGH_WATERMARK_RATIO=0.0来禁用MPS内存限制(但需注意系统稳定性风险)。
对于关键任务，考虑在Linux服务器或云环境中运行AutoGluon时间序列模型。
关注AutoGluon的版本更新，及时获取对MPS后端更好的支持。