首页
/ NVlabs/GEM项目:基于GPU的硬件仿真器使用指南

NVlabs/GEM项目:基于GPU的硬件仿真器使用指南

2025-06-24 05:21:49作者:凤尚柏Louis

项目概述

NVlabs/GEM是一个创新的硬件仿真框架,它利用GPU的强大并行计算能力来加速数字电路的仿真过程。该项目特别适合大规模同步逻辑电路的仿真,能够显著提升传统基于CPU的仿真方法的性能。

准备工作

设计约束

在使用GEM之前,需要注意以下设计约束:

  1. 仅支持非交互式测试平台,电路输入必须是静态波形(如VCD格式)
  2. 支持电路内部包含寄存器和时钟门控
  3. 目前不支持锁存器和其他异步时序逻辑

工具链准备

需要准备以下工具和环境:

  1. Yosys开源综合工具(用于内存综合)
  2. 可选:Synopsys DC商业综合工具(推荐用于逻辑综合)
  3. CUDA开发环境(Linux平台)
  4. Rust工具链(用于编译GEM)
  5. hmetis 2.0超图分割工具

详细使用流程

步骤1:获取AIG处理套件

从项目提供的aigpdk目录中获取以下关键文件:

  • aigpdk.lib:标准单元库文件
  • aigpdk_nomem.lib:不包含内存单元的标准单元库
  • aigpdk.v:包含标准单元定义的Verilog文件
  • memlib_yosys.txt:Yosys内存映射库

重要提示

  • 确保设计仅包含同步逻辑
  • 如果RTL代码中包含时钟门控,需要手动替换为aigpdk.v中的CKLNQD模块实例
  • 熟悉设计中内存块(如缓存)的实现位置

步骤2:使用Yosys进行内存综合

Yosys将自动识别和映射内存块,执行以下步骤:

  1. 读取Verilog设计文件
read_verilog xx.v yy.v top.v
  1. 建立设计层次结构
hierarchy -check -top TOP_MODULE
  1. 优化设计
proc;;
opt_expr; opt_dff; opt_clean
memory -nomap
  1. 映射RAM
memory_libmap -lib path/to/memlib_yosys.txt -logic-cost-rom 100 -logic-cost-ram 100

映射结果分析

  • $__RAMGEM_SYNC_:同步RAM映射成功
  • $__RAMGEM_ASYNC_:异步RAM,需要确认设计意图
  • using FF mapping for memory:使用寄存器实现内存,适合小容量内存
  1. 输出映射后的Verilog文件
write_verilog memory_mapped.v

步骤3:逻辑综合

将组合逻辑和时序逻辑映射到aigpdk.lib中定义的特殊标准单元集。

使用Synopsys DC(推荐)

  1. 设置库路径
set_app_var link_path path/to/aigpdk.db
set_app_var target_library path/to/aigpdk.db
  1. 综合优化
compile_ultra -no_seq_output_inversion -no_autoungroup
optimize_netlist -area
  1. 输出门级网表
write -format verilog -hierarchy -out gatelevel.gv

使用Yosys(替代方案)

synth -flatten
delete t:$print
dfflibmap -liberty path/to/aigpdk_nomem.lib
abc -liberty path/to/aigpdk_nomem.lib
techmap
write_verilog gatelevel.gv

步骤4:安装和编译GEM

  1. 确保已安装CUDA开发环境
  2. 安装Rust工具链
  3. 获取GEM项目及其依赖项

步骤5:使用GEM映射设计

GEM依赖hmetis超图分割工具,运行以下命令进行布尔处理器映射:

cargo run -r --features cuda --bin cut_map_interactive -- path/to/hmetis/Linux-x86_64/hmetis2.0pre1 path/to/gatelevel.gv path/to/result.gemparts

常见问题处理

  • 如果遇到深度电路分割失败,尝试添加--level-split选项
  • 分割结果将保存在result.gemparts二进制文件中

步骤6:仿真设计

执行仿真命令:

cargo run -r --features cuda --bin cuda_test -- path/to/gatelevel.gv path/to/result.gemparts path/to/input.vcd path/to/output.vcd NUM_BLOCKS

参数说明

  • NUM_BLOCKS:设置为GPU物理流式多处理器(SM)数量的两倍
  • 如果输入VCD中的端口不在顶层,使用--input-vcd-scope指定范围
  • 仿真结果将输出到output.vcd文件

性能优化建议

  1. 输入处理优化:GPU仿真前的VCD读取和解析可能耗时较长,建议开发自定义流水线直接向GEM CUDA内核提供输入波形
  2. 分割策略调整:根据电路特性调整--level-split参数以获得更好的并行性能
  3. 内存映射优化:确保大型RAM块被正确映射,避免不必要的寄存器实现

结语

NVlabs/GEM项目为大规模数字电路仿真提供了创新的GPU加速解决方案。通过本文介绍的完整流程,用户可以有效地将传统RTL设计映射到GPU上进行高效仿真。该工具特别适合需要高性能仿真的复杂数字系统验证场景。

登录后查看全文
热门项目推荐

项目优选

收起
openHiTLS-examplesopenHiTLS-examples
本仓将为广大高校开发者提供开源实践和创新开发平台,收集和展示openHiTLS示例代码及创新应用,欢迎大家投稿,让全世界看到您的精巧密码实现设计,也让更多人通过您的优秀成果,理解、喜爱上密码技术。
C
53
465
kernelkernel
deepin linux kernel
C
22
5
openHiTLSopenHiTLS
旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件,通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求,让密码技术应用更简单,同时探索后量子等先进算法创新实践,构建密码前沿技术底座!
C
349
381
nop-entropynop-entropy
Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台,包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分,采用java语言实现,可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用
Java
7
0
openGauss-serveropenGauss-server
openGauss kernel ~ openGauss is an open source relational database management system
C++
132
185
RuoYi-Vue3RuoYi-Vue3
🎉 (RuoYi)官方仓库 基于SpringBoot,Spring Security,JWT,Vue3 & Vite、Element Plus 的前后端分离权限管理系统
Vue
876
517
Cangjie-ExamplesCangjie-Examples
本仓将收集和展示高质量的仓颉示例代码,欢迎大家投稿,让全世界看到您的妙趣设计,也让更多人通过您的编码理解和喜爱仓颉语言。
Cangjie
336
1.1 K
ohos_react_nativeohos_react_native
React Native鸿蒙化仓库
C++
179
264
cherry-studiocherry-studio
🍒 Cherry Studio 是一款支持多个 LLM 提供商的桌面客户端
TypeScript
610
59
note-gennote-gen
一款跨平台的 Markdown AI 笔记软件,致力于使用 AI 建立记录和写作的桥梁。
TSX
83
4