Intel Extension for PyTorch 中 ARC B580 显卡的 AOT 内核优化问题解析

2025-07-07 12:46:33作者：翟江哲Frasier

在深度学习推理场景中，Intel 推出的 ARC 系列显卡为开发者提供了新的硬件选择。本文将深入分析 Intel Extension for PyTorch（IPEX）在 ARC B580 显卡上遇到的性能问题及其解决方案。

问题背景

当用户在 ARC B580 显卡上运行 GPTQ 量化模型时，首次执行会遭遇显著的性能下降问题。具体表现为初始化 quant_linear 操作耗时长达 5-10 分钟，这种延迟对于生产环境中的模型部署是不可接受的。

经过技术团队深入调查，发现问题根源在于 IPEX 库中缺少针对 ARC B580 显卡的预编译 AOT（Ahead-Of-Time）内核。AOT 编译是一种优化技术，它可以在程序运行前预先编译好关键内核，避免运行时即时编译带来的性能开销。

技术分析

AOT 编译的重要性

在 GPU 计算领域，内核预编译对于性能优化至关重要：

消除运行时编译开销
提前进行架构特定的优化
确保计算内核的最佳性能

问题复现与诊断

技术团队通过以下步骤确认了问题：

在 Ubuntu 24.04 系统上使用最新版 Torch(xpu) 和 IPEX
对比 ARC B580 和 A770 显卡的表现
确认性能瓶颈确实出现在内核初始化阶段

值得注意的是，虽然 ARC A770 理论上应该支持 AOT 内核，但部分用户仍报告了类似的性能问题，这表明可能存在更广泛的兼容性问题。

解决方案

Intel 技术团队针对此问题实施了以下优化措施：

内核优化：重点优化了 g_idx 重排序操作
性能提升：将 1B 模型的初始化时间从超过 10 分钟缩短至不到 3 分钟
版本更新：这些优化已包含在 IPEX 2.6 及后续版本中

验证结果

用户测试验证了优化效果：

在 1.5B 模型上，初始化时间降至约 3 分钟
7B 模型的初始化时间从极长降至约 10 分钟
结合 GPTQModel 2.0.0 更新后，初始化时间进一步缩短至约 10 秒

技术启示

这一案例为开发者提供了重要经验：

使用新硬件架构时，应检查关键库的兼容性
AOT 编译对性能有重大影响
及时更新框架和扩展库版本可解决许多性能问题

Intel 技术团队通过这次优化，不仅解决了特定显卡的性能问题，也为未来支持更多硬件架构积累了宝贵经验。开发者在使用 ARC 系列显卡进行深度学习推理时，应确保使用最新版的 IPEX 以获得最佳性能。

intel-extension-for-pytorch

A Python package for extending the official PyTorch that can easily obtain performance on Intel platform

项目地址：https://gitcode.com/GitHub_Trending/in/intel-extension-for-pytorch

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

leetcode

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

RuoYi-Vue3

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

150

rainbond

无需学习 Kubernetes 的容器平台，在 Kubernetes 上构建、部署、组装和管理应用，无需 K8s 专业知识，全流程图形化管理

cherry-studio

🍒 Cherry Studio 是一款支持多个 LLM 提供商的桌面客户端

TypeScript

928