BigDL项目下使用Intel A770显卡运行QWQ-32B-AWQ模型的性能优化实践

2025-05-29 19:36:08作者：裘晴惠Vivianne

项目地址：https://gitcode.com/gh_mirrors/bi/BigDL

硬件环境与问题背景

在基于BigDL项目的深度学习推理场景中，用户尝试使用双Intel Arc A770显卡（16GB显存）运行QWQ-32B-AWQ大语言模型时，遇到了推理速度仅4-6 token/s的性能瓶颈。该硬件配置包括AMD Ryzen 7 5700X3D处理器、64GB DDR4内存，并通过PCIe 4.0×8通道连接两张显卡，理论上应具备较强的计算能力。

初始性能分析

用户最初在Ubuntu 22.04系统环境下，使用intelanalytics/ipex-llm-serving-xpu:2.2.0-b12-usm容器镜像部署服务，观察到以下关键现象：

模型加载阶段出现AWQ量化警告，提示该量化方案尚未完全优化
多卡并行时出现CCL通信层关于PCIe拓扑的警告
实际推理吞吐量远低于预期水平（仅15%的理论性能）

通过日志分析发现，系统未能充分利用GPU计算资源，且存在潜在的驱动兼容性问题。特别值得注意的是，当尝试升级到更新的容器版本（如2.2.0-b16）时，出现了"RuntimeError: The program was built for 1 devices"的严重错误，表明多设备支持存在编译问题。

关键优化措施

经过深入排查和验证，以下优化方案被证明有效：

系统环境锁定
将Linux内核版本固定为6.5.0-generic，确保与Intel GPU驱动的兼容性。这是解决底层硬件交互问题的关键步骤。
容器版本选择
回退使用经过验证的稳定版本intelanalytics/ipex-llm-serving-xpu:2.2.0-b9，该版本在多卡支持方面表现更为可靠。

运行参数调优
配置以下关键环境变量以优化计算和通信效率：

export CCL_WORKER_COUNT=2
export SYCL_CACHE_PERSISTENT=1
export FI_PROVIDER=shm
export CCL_ATL_TRANSPORT=ofi
export CCL_ZE_IPC_EXCHANGE=sockets

硬件资源管理
通过xpu-smi工具显式设置GPU频率至2400MHz，避免动态调频带来的性能波动：

sudo xpu-smi config -d 0 -t 0 --frequencyrange 2400,2400
sudo xpu-smi config -d 1 -t 0 --frequencyrange 2400,2400

性能提升效果

实施上述优化后，系统表现出显著的性能改善：

推理速度从最初的4-6 token/s提升至稳定的15 token/s
GPU显存利用率达到95%的预期水平
多卡通信效率提升，CCL警告信息消失

技术要点总结

驱动兼容性至关重要
必须确保Linux内核版本、GPU驱动和容器镜像之间的严格匹配，特别是对于Intel Arc系列显卡这类较新的硬件。
量化方案选择影响显著
AWQ量化虽然能减少模型大小，但在当前实现中可能引入额外开销。用户需权衡模型精度与推理速度的关系。
多卡并行配置复杂
分布式推理需要仔细调整通信后端参数，包括共享内存设置和传输协议选择，以充分发挥PCIe通道的带宽优势。
监控工具不可或缺
使用xpu-smi等监控工具实时观察GPU利用率和频率状态，是诊断性能瓶颈的有效手段。

后续优化方向

对于追求更高性能的用户，可进一步探索：

尝试更新的容器版本（如2.3.0系列）中的FP8量化支持
调整tensor-parallel-size参数以优化计算图分割策略
针对具体应用场景优化max_num_batched_tokens等批处理参数

通过本次实践可以看出，在BigDL生态下使用Intel消费级显卡运行大语言模型具备可行性，但需要专业的系统调优才能发挥硬件潜能。这为资源受限的研究团队和企业提供了有价值的AI推理解决方案。

BigDL

项目地址：https://gitcode.com/gh_mirrors/bi/BigDL

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Java

nop-entropy

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

349

200

pytorch

Ascend Extension for PyTorch

无需学习 Kubernetes 的容器平台，在 Kubernetes 上构建、部署、组装和管理应用，无需 K8s 专业知识，全流程图形化管理

BigDL项目下使用Intel A770显卡运行QWQ-32B-AWQ模型的性能优化实践

硬件环境与问题背景

初始性能分析

关键优化措施

性能提升效果

技术要点总结

后续优化方向

热门内容推荐

最新内容推荐

项目优选

BigDL项目下使用Intel A770显卡运行QWQ-32B-AWQ模型的性能优化实践

硬件环境与问题背景

初始性能分析

关键优化措施

性能提升效果

技术要点总结

后续优化方向

相关内容推荐

热门内容推荐

最新内容推荐

项目优选