Executorch项目中使用QNN后端运行Llama3.2-1B模型的技术实践

2025-06-28 07:03:28作者：苗圣禹Peter

在移动设备上部署大型语言模型一直是AI工程领域的重要挑战。本文将详细介绍在Executorch框架下，使用高通QNN后端在Android设备上运行Llama3.2-1B模型的技术实践过程，以及遇到的关键问题和解决方案。

模型导出与编译

首先需要将Llama3.2-1B模型导出为Executorch支持的格式。使用Python脚本执行导出操作时，需要特别注意几个关键参数：

--qnn 参数启用QNN后端支持
--pt2e_quantize qnn_16a4w 指定量化方案为16位激活和4位权重
--disable_dynamic_shape 禁用动态形状以适配QNN后端
--metadata 提供模型特定的元数据

导出命令示例如下：

python -m examples.models.llama.export_llama \
    --checkpoint consolidated.00.pth \
    -t tokenizer.model \
    -p params.json \
    -kv \
    --disable_dynamic_shape \
    --qnn \
    --pt2e_quantize qnn_16a4w \
    -d fp32 \
    --metadata '{"get_bos_id":128000, "get_eos_ids":[128009, 128001]}' \
    --output_name="llama3.2-1B.pte"

Android运行环境构建

构建Android运行环境时，需要使用特定的CMake配置启用QNN支持。关键配置包括：

指定Android NDK工具链
设置目标平台为arm64-v8a
启用Executorch的QNN扩展支持
配置QNN SDK路径

完整的CMake配置分为两个阶段：首先构建Executorch核心库，然后构建Llama模型运行器。

常见问题与解决方案

在实践过程中，开发者可能会遇到几个典型问题：

QNN上下文初始化失败：错误信息显示"Request feature arch with value 75 unsupported"，这通常是由于设备SOC类型不匹配导致的。解决方案是在构建时明确指定SOC类型为SM8550（针对Galaxy S23设备）。
模型与运行器不兼容：当使用不同方式生成的模型文件时，可能会出现"forward未定义"的错误。这是因为Executorch提供了两种不同的Llama运行器实现，必须确保模型文件与对应的运行器匹配。
无输出问题：当使用QNN专用运行器时，输出可能不会直接显示在控制台，而是需要通过Android的日志系统查看。使用adb logcat | grep ExecuTorch命令可以获取详细的运行日志。