首页
/ Tenstorrent TT-Metal v0.58.0-rc9 版本技术解析与架构演进

Tenstorrent TT-Metal v0.58.0-rc9 版本技术解析与架构演进

2025-07-10 06:23:11作者:翟江哲Frasier

Tenstorrent TT-Metal 是一个面向高性能计算的硬件加速框架,专注于为AI和机器学习工作负载提供高效的张量处理能力。最新发布的v0.58.0-rc9版本带来了多项重要改进,从底层架构优化到上层功能增强,展现了该项目在张量计算领域的持续创新。

核心架构改进

本次版本在底层架构方面进行了多项重要调整。最显著的变化是移除了DispatchMemMap单例模式,将其所有权转移至MetalContext,这一改动使得内存管理更加清晰和模块化。同时,项目团队还移除了传统的异步模式API,标志着代码库向更现代的编程范式迁移。

在设备初始化方面,新增了对2D Torus拓扑结构的支持,特别针对6U架构进行了优化。这一改进为大规模并行计算提供了更灵活的硬件配置选项。内存管理子系统也获得了增强,更新了DRAM切片大小的计算逻辑,并优化了持久性缓冲区tt_stats在RMS中的处理方式。

性能优化与硬件适配

性能优化是本版本的重点方向之一。DRAM预取器新增了性能模式支持,可以针对不同工作负载特征进行更精细的调优。在特定操作如Llama SDPA解码中,团队通过采用16x32瓦片布局和移除copy_blocks操作,显著提升了处理效率。

针对不同硬件平台,项目团队进行了针对性的优化。例如,在Blackhole架构上禁用了TensixInlineWriteDynamicNoc功能,并调整了相关测试策略。同时,新增了6U架构专用的全网格带宽测试,为大规模系统部署提供了更全面的性能评估手段。

算子与模型支持扩展

在算子支持方面,v0.58.0-rc9版本带来了多项增强。新增了对uint16数据类型的加法操作支持,扩展了关系运算符的整数处理能力,并实现了TopK操作在L1缓存上的优化处理。特别值得注意的是,argmax操作现在支持任意维度和形状的多核处理,大大提升了灵活性。

模型支持方面,项目新增了对YOLOv8s_world和YOLOv8x模型的追踪性能支持,并改进了VAE中间块和上采样块的实现。这些改进使得框架能够更好地支持计算机视觉领域的最新模型。

测试与稳定性增强

本版本在测试基础设施方面进行了多项改进。新增了系统健康测试二进制文件,专门针对6U/T3K架构设计。团队还开发了Resnet50的稳定性测试脚本,并修复了多个测试用例中的问题,包括LM Head单元测试和ETH性能分析器测试等。

在性能监控方面,新增了生成每核心操作到操作时间的CSV报告功能,为性能分析提供了更细粒度的数据。同时引入了FORCE_PUSH_TO_TRACY选项到设备性能分析结果导出功能中,增强了调试能力。

开发者体验改进

项目团队持续优化开发者体验。代码库现在启用了更多编译器警告,帮助开发者及早发现问题。构建系统方面,开始支持开发包(-dev)的构建,并尝试限制xtensor-blas依赖的范围。文档方面也进行了更新,特别是单目运算相关文档得到了完善。

Tenstorrent TT-Metal v0.58.0-rc9版本展现了项目在性能、功能和稳定性方面的持续进步,为AI加速领域提供了更强大、更灵活的基础设施支持。这些改进不仅提升了现有功能的效率,也为未来更复杂的AI模型支持奠定了基础。

登录后查看全文
热门项目推荐
相关项目推荐

项目优选

收起
kernelkernel
deepin linux kernel
C
27
11
docsdocs
OpenHarmony documentation | OpenHarmony开发者文档
Dockerfile
466
3.47 K
nop-entropynop-entropy
Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台,包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分,采用java语言实现,可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用
Java
10
1
leetcodeleetcode
🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer(第 2 版)》、《程序员面试金典(第 6 版)》题解
Java
65
19
flutter_flutterflutter_flutter
暂无简介
Dart
715
172
giteagitea
喝着茶写代码!最易用的自托管一站式代码托管平台,包含Git托管,代码审查,团队协作,软件包和CI/CD。
Go
23
0
kernelkernel
openEuler内核是openEuler操作系统的核心,既是系统性能与稳定性的基石,也是连接处理器、设备与服务的桥梁。
C
203
82
RuoYi-Vue3RuoYi-Vue3
🎉 (RuoYi)官方仓库 基于SpringBoot,Spring Security,JWT,Vue3 & Vite、Element Plus 的前后端分离权限管理系统
Vue
1.27 K
695
rainbondrainbond
无需学习 Kubernetes 的容器平台,在 Kubernetes 上构建、部署、组装和管理应用,无需 K8s 专业知识,全流程图形化管理
Go
15
1
apintoapinto
基于golang开发的网关。具有各种插件,可以自行扩展,即插即用。此外,它可以快速帮助企业管理API服务,提高API服务的稳定性和安全性。
Go
22
1