高性能张量处理引擎项目教程

2025-05-25 23:06:17作者：贡沫苏Truman

1. 项目介绍

本项目（High-Performance-Tensor-Processing-Engines）旨在探索和实现张量处理引擎的性能优化，特别是在矩阵乘累加（GEMM）操作的位权维度上进行转换。本项目使用了Synopsys官方的教育库SAED32nm来进行测试，支持设计编译器和IC编译器等工具。

为了快速启动本项目，你需要执行以下步骤：

确保你的开发环境中安装了以下工具：

使用Git克隆本项目到本地：

git clone https://github.com/wqzustc/High-Performance-Tensor-Processing-Engines.git
cd High-Performance-Tensor-Processing-Engines

以下是编译和执行功能仿真的基本步骤：

# 进入PE模块仿真目录
cd OPT1/systolic_array_os/opt1_pe/sim

# 编译仿真
make vcs

# 视图调试
make vd

执行以上步骤后，你可以根据项目的具体需求调整参数，进行仿真和调试。

以下是合成和功耗模拟的步骤：

# 进入PE模块合成目录
cd OPT1/systolic_array_os/opt1_pe/syn

# 执行合成脚本
sh run.sh

# 进入功耗模拟目录
cd ../power

# 执行功耗模拟脚本
sh pt.sh

确保在执行上述脚本前，已经将工作路径替换为你个人的目录。

本项目提供了不同的张量核心配置，包括输出静态（OS-style）、权重静态（WS-style）和基于3D-Cube架构的TensorCore。以下是一个应用案例：

修改测试平台中的参数 M、N 和 K 来实现子矩阵乘法。例如，设置参数 M=36、N=47 和 K=98，然后执行100次随机GEMM测试。

# 修改测试平台参数
parameter M = 36;
parameter K = 98;
parameter N = 47;

# 执行测试
make vcs

确保测试结果输出中所有元素匹配，表示测试成功。

本项目的生态系统中包括以下典型项目：

通过这些工具和项目的结合，开发者可以优化张量处理引擎的设计，提高性能并降低功耗。

登录后查看全文