Microsoft Olive项目中QNN量化配置的优化实践
摘要
本文深入探讨了Microsoft Olive项目中ONNX模型量化过程中的一个重要优化点——prepare_qnn_config函数对op_types_to_quantize参数的处理逻辑。通过分析实际案例,我们揭示了当前实现可能存在的问题,并提出了改进方案,同时分享了在稳定扩散模型量化过程中的实践经验。
背景
在模型量化过程中,QNN(高通神经网络)执行提供者需要特定的量化配置。Microsoft Olive项目中的prepare_qnn_config函数负责准备这些配置参数。当前实现中,该函数会无条件覆盖用户显式设置的op_types_to_quantize参数,这可能不符合某些特殊场景下的量化需求。
问题分析
在实际应用中,特别是处理如稳定扩散2.1的UNet模型时,我们发现不对常量操作(Constant ops)进行量化反而能获得更好的效果。然而,当前的prepare_qnn_config实现会强制覆盖用户指定的操作类型量化列表,导致无法灵活控制特定操作的量化行为。
从技术角度看,QNN执行提供者虽然通常需要全模型量化以保持单一QNN图的完整性,但根据高通官方文档,某些操作可以在FP16精度下运行而无需量化,只要这些操作在QNN支持列表中。
解决方案
我们提出了以下改进方案:
- 在prepare_qnn_config函数中保留用户显式设置的op_types_to_quantize参数
- 仅当用户未指定该参数时,才使用默认的量化操作类型列表
- 通过预处理步骤优化模型结构,如将常量操作转换为初始值
核心代码修改如下:
op_types_to_quantize = run_config["op_types_to_quantize"]
run_config = {k: v for k, v in inspect.getmembers(qnn_config) if not k.startswith("_")}
if op_types_to_quantize:
run_config["op_types_to_quantize"] = op_types_to_quantize
实践案例
在稳定扩散2.1模型的量化过程中,我们发现:
- 不对常量操作进行量化可以显著改善模型性能
- 启用quant_preprocess参数(尽管文档说明默认为True,但实际需要显式设置)可以自动优化模型结构
- 预处理后的模型不再包含常量操作节点,从而避免了不必要的量化
对于文本编码器中的Add和Softmax操作,当量化导致精度下降时,可以考虑:
- 使用张量覆盖(tensor overrides)技术精细控制量化参数
- 权衡量化带来的性能提升与精度损失
最佳实践
基于我们的实践经验,建议在QNN量化时:
- 始终显式设置quant_preprocess为True,确保模型经过适当优化
- 对于特定模型结构,谨慎选择需要量化的操作类型
- 在量化前后进行充分的精度验证,特别是对于敏感操作如Add和Softmax
- 考虑使用peephole优化器等工具进一步优化模型结构
结论
通过对Microsoft Olive项目量化配置的优化,我们实现了更灵活的模型量化控制,特别是在处理复杂模型如稳定扩散时。这一改进不仅解决了特定场景下的量化问题,也为开发者提供了更多自定义选项,使量化过程能够更好地适应不同模型和硬件的需求。未来,我们将继续探索量化预处理和操作类型选择的最佳实践,以进一步提升模型在边缘设备上的性能和精度。
ERNIE-4.5-VL-28B-A3B-ThinkingERNIE-4.5-VL-28B-A3B-Thinking 是 ERNIE-4.5-VL-28B-A3B 架构的重大升级,通过中期大规模视觉-语言推理数据训练,显著提升了模型的表征能力和模态对齐,实现了多模态推理能力的突破性飞跃Python00
unified-cache-managementUnified Cache Manager(推理记忆数据管理器),是一款以KV Cache为中心的推理加速套件,其融合了多类型缓存加速算法工具,分级管理并持久化推理过程中产生的KV Cache记忆数据,扩大推理上下文窗口,以实现高吞吐、低时延的推理体验,降低每Token推理成本。Python03
Kimi-K2-ThinkingKimi K2 Thinking 是最新、性能最强的开源思维模型。从 Kimi K2 开始,我们将其打造为能够逐步推理并动态调用工具的思维智能体。通过显著提升多步推理深度,并在 200–300 次连续调用中保持稳定的工具使用能力,它在 Humanity's Last Exam (HLE)、BrowseComp 等基准测试中树立了新的技术标杆。同时,K2 Thinking 是原生 INT4 量化模型,具备 256k 上下文窗口,实现了推理延迟和 GPU 内存占用的无损降低。Python00
Spark-Prover-7BSpark-Prover-7B is a 7B-parameter large language model developed by iFLYTEK for automated theorem proving in Lean4. It generates complete formal proofs for mathematical theorems using a three-stage training framework combining pre-training, supervised fine-tuning, and reinforcement learning. The model achieves strong formal reasoning performance and state-of-the-art results across multiple theorem-proving benchmarksPython00
MiniCPM-V-4_5MiniCPM-V 4.5 是 MiniCPM-V 系列中最新且功能最强的模型。该模型基于 Qwen3-8B 和 SigLIP2-400M 构建,总参数量为 80 亿。与之前的 MiniCPM-V 和 MiniCPM-o 模型相比,它在性能上有显著提升,并引入了新的实用功能Python00
Spark-Formalizer-7BSpark-Formalizer-7B is a 7B-parameter large language model by iFLYTEK for mathematical auto-formalization. It translates natural-language math problems into precise Lean4 formal statements, achieving high accuracy and logical consistency. The model is trained with a two-stage strategy combining large-scale pre-training and supervised fine-tuning for robust formal reasoning.Python00
GOT-OCR-2.0-hf阶跃星辰StepFun推出的GOT-OCR-2.0-hf是一款强大的多语言OCR开源模型,支持从普通文档到复杂场景的文字识别。它能精准处理表格、图表、数学公式、几何图形甚至乐谱等特殊内容,输出结果可通过第三方工具渲染成多种格式。模型支持1024×1024高分辨率输入,具备多页批量处理、动态分块识别和交互式区域选择等创新功能,用户可通过坐标或颜色指定识别区域。基于Apache 2.0协议开源,提供Hugging Face演示和完整代码,适用于学术研究到工业应用的广泛场景,为OCR领域带来突破性解决方案。00- HHowToCook程序员在家做饭方法指南。Programmer's guide about how to cook at home (Chinese only).Dockerfile014
Spark-Scilit-X1-13B科大讯飞Spark Scilit-X1-13B基于最新一代科大讯飞基础模型,并针对源自科学文献的多项核心任务进行了训练。作为一款专为学术研究场景打造的大型语言模型,它在论文辅助阅读、学术翻译、英语润色和评论生成等方面均表现出色,旨在为研究人员、教师和学生提供高效、精准的智能辅助。Python00- PpathwayPathway is an open framework for high-throughput and low-latency real-time data processing.Python00