Intel Extension for Transformers 中 QLoRA 在 CPU 上的应用问题解析

2025-07-03 10:16:33作者：霍妲思

问题背景

在使用 Intel Extension for Transformers 项目对 Qwen-14B-Chat 模型进行 QLoRA 微调时，用户遇到了设备不支持权重量化的问题。具体表现为在 Intel Xeon CPU 上执行 QLoRA 微调时出现"None device Unsupported weight only quantization"错误。

问题分析

该问题主要涉及以下几个方面：

QLoRA 量化支持：QLoRA 是一种高效的微调方法，它结合了量化技术和 LoRA 微调。在 CPU 上实现 QLoRA 需要特定的量化支持。
设备检测问题：错误信息显示设备检测为"None"，表明系统未能正确识别和配置 CPU 设备。
目标模块指定：对于 Qwen-14B-Chat 这样的模型，Peft 库尚未注册默认的 LoRA 目标模块，需要手动指定。

解决方案

针对上述问题，项目团队通过以下方式解决了问题：

代码修复：在项目的最新提交中修复了设备检测和量化支持的问题。
参数调整：需要在使用 Qwen-14B-Chat 模型时显式指定 LoRA 目标模块为"c_proj"。
数据类型处理：虽然用户报告了 bf16 数据类型的问题，但经过验证，在正确配置下 bf16 和 QLoRA 可以正常工作。

最佳实践建议

对于希望在 CPU 上使用 Intel Extension for Transformers 进行 QLoRA 微调的用户，建议：

确保使用最新版本的代码库，特别是包含相关修复的版本。
对于 Qwen 系列模型，始终指定 LoRA 目标模块参数：--lora_target_modules c_proj。
数据类型选择上，bf16 通常是推荐的选择，但如果在特定环境中遇到问题，可以尝试其他数据类型。
监控微调过程中的资源使用情况，适当调整批量大小和梯度累积步数等参数。

技术展望

随着大模型在边缘计算和本地部署的需求增加，CPU 上的高效微调技术将变得越来越重要。Intel Extension for Transformers 项目通过支持 QLoRA 等先进技术，为用户提供了在资源受限环境中微调大模型的可能性。未来，我们可以期待更多针对 CPU 优化的量化微调技术的出现。

登录后查看全文