GPUStack分布式推理在Mac M2 Ultra上的性能问题分析

2025-07-01 18:05:50作者：龚格成

A GPU cluster manager that configures and orchestrates inference engines like vLLM and SGLang for high-performance AI model deployment.

项目地址：https://gitcode.com/gh_mirrors/gp/gpustack

问题背景

在使用GPUStack进行分布式推理时，用户报告在Mac Studio M2 Ultra设备上部署DeepSeek-R1-UD-IQ1_S模型(131GB)时遇到了严重的性能问题。具体表现为推理速度仅为0.69 tokens/s，远低于预期值17 tokens/s。

环境配置

测试环境由两台Mac Studio组成：

主服务器：M2 Ultra，192GB内存
RPC服务器：M2 Ultra，64GB内存操作系统分别为macOS 14.2和15.2

性能差异分析

GPUStack团队经过深入调查，发现以下几个关键因素可能影响分布式推理性能：

内存管理机制：macOS的"residency set"特性可能影响推理性能。这是一种内存管理机制，在某些情况下可能导致内存泄漏或性能下降。
模型分割策略：在分布式环境中，模型的分割方式和数据传输效率直接影响整体性能。大模型的分块传输和计算协调会引入额外开销。
硬件资源分配：不同内存配置的节点在协同工作时可能存在资源分配不均衡的问题，特别是当模型大小接近或超过单个节点的内存容量时。

技术验证

团队进行了多组对比测试，包括：

不同macOS版本组合测试
启用/禁用residency set特性的对比
单节点与分布式环境性能基准

测试结果显示，在类似硬件环境下，使用llama-box工具部署DeepSeek-R1-UD-Q2_K_XL模型时，典型性能为5-6 tokens/s。这表明分布式推理确实会带来一定的性能开销。

解决方案与优化建议

系统升级：建议将系统升级至macOS 15.3.1版本，该版本对内存管理有优化。
服务重启：作为临时解决方案，重启RPC服务器可能改善性能。
配置调整：在llama-box启动参数中，可以尝试调整以下参数：
- --tensor-split：优化张量分割策略
- --parallel：调整并行度
- --no-mmap：禁用内存映射
资源监控：密切监控内存使用情况，特别是当主服务器中断时可能引发的RPC服务器内存泄漏问题。

性能预期

用户报告的17 tokens/s性能指标可能来自32B蒸馏模型或单机运行环境。对于131GB的完整DeepSeek-R1-UD模型，在分布式环境下5-6 tokens/s是更现实的性能预期。

总结

GPUStack在Mac M2 Ultra上的分布式推理性能受多种因素影响，包括操作系统版本、内存管理机制和模型分割策略等。用户应合理设置性能预期，并根据实际情况调整配置参数。团队将继续优化分布式推理性能，特别是在macOS平台上的内存管理效率。

A GPU cluster manager that configures and orchestrates inference engines like vLLM and SGLang for high-performance AI model deployment.

项目地址：https://gitcode.com/gh_mirrors/gp/gpustack

登录后查看全文

项目优选

收起

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体，本仓库为其提供可复用的 Skills 模块。

Oohos_react_native

React Native鸿蒙化仓库