Intel Extension for Transformers运行Llama2-70B模型的内存优化实践

2025-07-03 14:09:16作者：裘旻烁

在大型语言模型(LLM)的应用实践中，内存管理是一个关键挑战。本文通过对比llama.cpp和Intel Extension for Transformers(简称ITREX)在运行Llama2-70B模型时的内存表现，分享一些实际经验。

问题现象

当尝试在Windows 11系统(配备Intel SPR w9-3595X E5处理器和128GB内存)上运行Llama2-70B模型的int8量化版本时，观察到以下现象：

使用llama.cpp运行时，模型内存占用约为56%，推理速度达到2.43 tokens/秒
使用ITREX运行时，出现内存不足(OOM)错误

根本原因分析

经过深入调查，发现ITREX与llama.cpp在模型格式处理上存在重要差异：

模型格式不兼容：ITREX无法直接使用llama.cpp生成的ggml格式模型文件，需要重新使用ITREX提供的转换工具进行处理
命名规范差异：ITREX中模型名称应使用"llama"而非"llama2"，虽然两者模型结构相同

解决方案

要成功在ITREX中运行Llama2-70B模型，建议遵循以下步骤：

使用ITREX专用转换工具：重新进行模型转换和量化，使用ITREX提供的脚本而非llama.cpp的工具
正确指定模型名称：在推理脚本中使用--model_name llama参数
考虑量化级别：可以尝试q4_0等更低精度的量化方案来进一步降低内存需求

未来展望

ITREX团队计划在未来版本中支持GGUF格式模型，这将实现与llama.cpp模型的直接兼容，为用户提供更大的灵活性。

实践建议

对于希望在ITREX中运行大型语言模型的开发者，建议：

始终使用ITREX官方提供的模型转换工具
对于Llama系列模型，统一使用"llama"作为模型名称
根据硬件配置选择合适的量化级别
关注ITREX的版本更新，特别是对GGUF格式的支持进展

通过遵循这些最佳实践，可以更高效地在ITREX框架中部署和运行大型语言模型，充分发挥硬件性能。

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

RuoYi-Vue3

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

147

leetcode

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解