qc_npu_benchmark 的项目扩展与二次开发

2025-06-25 04:06:59作者：管翌锬

项目的基础介绍

qc_npu_benchmark 是一个开源项目，旨在为开发者提供一个用于在基于高通NPU的Windows平台上进行性能测试的工具。该项目通过一系列的基准测试，帮助开发者理解和评估NPU在执行矩阵乘法运算时的性能表现，这对于优化和提升AI应用程序的性能至关重要。

项目的核心功能

项目的核心功能是运行和评估在高通NPU上执行矩阵乘法运算的性能。它包括以下主要功能：

在CPU和NPU上执行矩阵乘法运算的基准测试。
支持量化模型和浮点模型，以评估不同数据类型对性能的影响。
提供了测试结果的详细输出，包括运算时间和每秒操作数（ops）。

项目使用了哪些框架或库？

该项目使用了以下框架和库：

Python：作为主要的脚本语言来编写测试和数据处理代码。
ONNX (Open Neural Network Exchange)：用于定义和执行计算图。
CMake：用于构建ONNX和其他必要的本地依赖。
Visual Studio：提供编译所需的C++编译器。
Pip：用于安装Python相关的依赖包。

项目的代码目录及介绍

项目的代码目录结构如下：

benchmark_matmul.py：主脚本文件，用于执行矩阵乘法的基准测试。
benchmark_matmul_cudnn.py：使用cuDNN库的基准测试脚本。
matmul_model_float.onnx、matmul_model_quant.onnx、matmul_model_quant_io.onnx：不同数据类型的ONNX模型文件。
npu_quant_io_profile.csv、npu_quant_profile.csv：记录性能数据的CSV文件。
requirements.txt：Python依赖文件，包含了项目运行所需的Python包。

对项目进行扩展或者二次开发的方向

增加更多模型：目前项目只包含了矩阵乘法模型，可以扩展到其他类型的神经网络模型，如卷积神经网络或循环神经网络。
支持更多数据类型：除了当前支持的量化模型和浮点模型，可以添加对其他数据类型（例如半精度浮点数）的支持。
优化模型转换：目前项目中的模型转换过程较慢，可以通过优化模型转换算法或使用更高效的库来改进。
集成其他工具：可以集成其他性能分析工具，以提供更全面的性能评估。
用户界面：开发一个图形用户界面（GUI），以便于非技术用户也能轻松运行基准测试并查看结果。
自动化测试流程：通过脚本自动化测试流程，使得基准测试更加方便快捷。

通过上述扩展和二次开发，qc_npu_benchmark 项目将能更好地服务于开发者，帮助他们更有效地优化NPU上的AI应用性能。

登录后查看全文

项目优选

收起

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

flutter_flutter

Oohos_react_native

React Native鸿蒙化仓库

昇腾LLM分布式训练框架

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统