Swift项目在Mac MPS环境下微调失败的解决方案

2025-05-31 13:38:47作者：胡易黎Nicole

Use PEFT or Full-parameter to CPT/SFT/DPO/GRPO 600+ LLMs (Qwen3.6, DeepSeek-V4, GLM-5.1, InternLM3, Llama4, ...) and 300+ MLLMs (Qwen3-VL, Qwen3-Omni, InternVL3.5, Ovis2.5, GLM4.5v, Gemma4, Llava, Phi4, ...) (AAAI 2025).

项目地址：https://gitcode.com/GitHub_Trending/swift1/swift

问题背景

在Mac设备上使用Metal Performance Shaders（MPS）进行深度学习模型微调时，用户遇到了一个典型的技术挑战。虽然模型推理功能可以正常运行，但在尝试进行微调训练时却遭遇了失败。这种情况在Mac平台上使用MPS进行深度学习训练时并不罕见，特别是在处理数据加载和多进程相关操作时。

错误分析

从错误日志中可以清晰地看到，问题出现在数据加载阶段，具体表现为"share_filename: only available on CPU"的运行时错误。这个错误表明系统尝试在多进程环境下共享存储数据时，遇到了MPS设备不支持的操作。

错误的核心在于PyTorch的数据加载器默认会使用多进程来加速数据预处理（通过设置num_workers参数）。然而，在Mac的MPS环境下，这种多进程数据共享机制与MPS设备存在兼容性问题。

解决方案

经过技术验证，最直接有效的解决方案是将数据加载器的工作进程数（dataloader_num_workers）设置为0。这一调整能够：

强制系统使用主进程进行数据加载，避免了多进程间的数据共享问题
虽然可能略微降低数据加载效率，但确保了训练过程的稳定性
完全兼容MPS设备的特性，不会引发底层运行时错误

实施建议

对于在Mac MPS环境下进行模型微调的用户，建议采取以下最佳实践：

在训练配置中明确设置dataloader_num_workers=0
考虑适当减小批量大小（batch size）以降低内存压力
监控训练过程中的内存使用情况，Mac设备的统一内存架构有其特殊性
对于大型数据集，可以考虑预先处理好数据缓存，减少实时数据加载的压力

技术原理深入

这一问题的根本原因在于Mac MPS的实现机制与传统的CUDA环境有所不同。MPS作为Apple Silicon芯片的专用加速框架，其内存管理与多进程协作方式与CUDA存在差异。当PyTorch尝试在多进程间共享存储数据时，MPS设备无法像CPU那样提供标准的内存共享机制，从而导致运行时错误。

通过禁用多进程数据加载，我们实际上是将所有数据预处理工作集中在主进程完成，虽然牺牲了一定的并行效率，但换来了训练的稳定性。对于大多数Mac用户而言，这种折衷方案在实际应用中通常是可接受的。

总结

在Mac平台上使用Swift项目进行模型微调时，遇到MPS环境下的兼容性问题不必惊慌。通过合理配置数据加载器参数，特别是将工作进程数设置为0，可以有效解决这类问题。这一解决方案不仅简单易行，而且经过了实际验证，能够帮助开发者顺利在Mac设备上完成模型微调任务。

swift

项目地址：https://gitcode.com/GitHub_Trending/swift1/swift

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

471

465

pytorch

Ascend Extension for PyTorch

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Java

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

Rust

2.09 K

217