BigDL项目下iPEX-LLM在Intel 12450H CPU上的Ollama运行问题解析

2025-05-29 12:55:13作者：苗圣禹Peter

Accelerate local LLM inference and finetuning (LLaMA, Mistral, ChatGLM, Qwen, DeepSeek, Mixtral, Gemma, Phi, MiniCPM, Qwen-VL, MiniCPM-V, etc.) on Intel XPU (e.g., local PC with iGPU and NPU, discrete GPU such as Arc, Flex and Max); seamlessly integrate with llama.cpp, Ollama, HuggingFace, LangChain, LlamaIndex, vLLM, DeepSpeed, Axolotl, etc.

项目地址：https://gitcode.com/gh_mirrors/bi/BigDL

问题背景

在使用BigDL项目的iPEX-LLM组件运行Ollama时，部分用户在Intel 12450H CPU上遇到了模型加载失败的问题。具体表现为在加载某些模型时出现PI_ERROR_BUILD_PROGRAM_FAILURE错误，特别是在使用qwen2.5系列模型和bge-m3嵌入模型时。

问题现象分析

初始错误表现

用户在Intel 12450H CPU（驱动版本32.0.101.6325）上安装ipex-llm[cpp]和Ollama 0.4.6后，尝试运行qwen2.5:7b模型时遇到以下关键错误：

The program was built for 1 devices
Build program log for 'Intel(R) UHD Graphics':
-11 (PI_ERROR_BUILD_PROGRAM_FAILURE)Exception caught at file:D:/actions-runner/release-cpp-oneapi_2024_2/_work/llm.cpp/llm.cpp/llama-cpp-bigdl/ggml/src/ggml-sycl.cpp, line:3775

问题扩展分析

进一步测试发现，不同模型表现各异：

qwen2:0.5b和gemma2:9b可以正常运行
qwen2.5:0.5b和qwen2.5:7b在运行过程中会随机失败
bge-m3嵌入模型在初始化阶段就会失败

问题根源

经过技术团队分析，这些问题主要源于以下几个方面：

SYCL程序构建失败：PI_ERROR_BUILD_PROGRAM_FAILURE错误表明在尝试为Intel UHD Graphics构建SYCL程序时失败，这通常与GPU驱动兼容性或程序构建参数有关。
模型特定问题：qwen2.5系列模型在特定硬件配置下存在兼容性问题，而bge-m3模型则存在嵌入层实现上的断言错误。
内存管理问题：部分错误与内存分配和模型分层加载策略有关。

解决方案与修复过程

技术团队针对这些问题进行了多轮修复：

基础兼容性修复：在ipex-llm 2.2.0b20250102版本中，修复了qwen2.5系列模型的基本运行问题。用户需要：
- 升级到指定版本
- 清理旧的Ollama链接
- 重新初始化Ollama环境
嵌入模型专项修复：针对bge-m3模型的嵌入层断言错误，团队进行了专门修复，确保嵌入操作能正确处理序列ID与token数量的关系。
内存优化：优化了模型分层加载策略，改进了GPU内存管理机制。

用户操作建议

对于遇到类似问题的用户，建议采取以下步骤：

环境检查：
- 确认CPU型号和驱动版本
- 检查ipex-llm和Ollama的版本兼容性

升级操作：

pip install --pre --upgrade ipex-llm[cpp]

模型选择：
- 暂时优先使用已知兼容性好的模型（如qwen2:0.5b和gemma2:9b）
- 对于嵌入任务，可使用已修复的bge-m3模型
错误排查：
- 关注Ollama服务日志中的内存分配信息
- 检查模型加载过程中的分层卸载情况

技术展望

BigDL团队持续优化iPEX-LLM在各种Intel硬件上的表现，未来版本将重点关注：

更广泛的模型兼容性支持
更稳定的SYCL后端实现
更智能的内存管理策略
更详细的错误报告机制

通过持续的迭代优化，iPEX-LLM将为开发者在Intel平台上运行大型语言模型提供更加稳定和高效的支持。

BigDL

项目地址：https://gitcode.com/gh_mirrors/bi/BigDL

登录后查看全文

项目优选

收起

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

461

455

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

Dart

1.02 K

265