TT-Metal v0.58.0-rc17 版本深度解析：性能优化与模型支持新进展

2025-07-10 17:50:12作者：裴锟轩Denise

TT-Metal 是 Tenstorrent 公司开发的一款高性能计算框架，专注于为 AI 和机器学习工作负载提供高效的硬件加速支持。该框架通过深度优化计算图执行、内存管理和设备通信等核心组件，能够充分发挥 Tenstorrent 硬件架构的计算潜力。

本次发布的 v0.58.0-rc17 版本带来了多项重要更新，主要集中在性能优化、新模型支持以及系统稳定性提升三个方面。这些改进不仅增强了框架的功能性，也为开发者提供了更高效、更稳定的开发体验。

核心性能优化

本次版本在性能优化方面做出了多项重要改进。最值得注意的是新增了 DRAM 预取器的性能模式支持，这一特性可以显著提升内存密集型应用的执行效率。通过智能预取数据，减少了处理器等待数据的时间，特别适合处理大规模张量运算。

另一个关键优化是针对 Llama SDPA 解码过程的改进。新版本采用了 16x32 的瓦片布局，并移除了不必要的 copy_blocks 操作，这使得解码过程的计算密度更高，内存访问模式更加高效。对于自然语言处理任务，这种优化可以带来明显的端到端性能提升。

在设备初始化方面，新版本增加了对 6U 设备上 2D Torus 拓扑的支持。这种拓扑结构能够更好地匹配某些特定计算模式的通信需求，为分布式计算提供了更灵活的硬件资源配置方式。

新模型与算子支持

模型支持方面，本次更新引入了对 YOLOv8s_world 和 YOLOv9c 模型的完整支持。特别是为 YOLOv8x 模型添加了跟踪(trace)支持，这使得开发者能够更深入地分析模型在 Tenstorrent 硬件上的执行情况，便于进行针对性的优化。

在算子层面，新版本增加了多个重要功能：

实现了 ttnn.experimental.broadcast_to 操作，扩展了张量广播能力
为 ttnn.add 操作添加了 uint16 数据类型支持
完善了 ttnn.sort 的单核实现，提升了排序操作的执行效率
增加了对 0D、1D 和 0V 张量的 matmul 操作支持，扩展了矩阵乘法的应用场景

特别值得一提的是新加入的 ttnn.stack 操作实现，这个功能在构建复杂计算图时非常有用，能够更灵活地组合多个张量。

系统稳定性与可靠性增强

在系统稳定性方面，本次更新包含了多项重要修复。移除了 DispatchMemMap 单例模式，改为由 MetalContext 管理其生命周期，这一改动消除了潜在的资源管理问题，提高了长时间运行的稳定性。

针对设备通信，新版本修复了 reduce scatter 操作中接收方/发送方 ID 计算的问题，并优化了 all_gather_concat 操作对 RM(行主序)输入的支持。这些改进使得分布式计算更加可靠。

内存管理方面也有显著改进，包括更新了 DRAM 切片大小的计算逻辑，以及修复了 RMS 操作中持久性缓冲区 tt_stats 的错误释放问题。这些改动减少了内存相关错误的可能性。

开发者体验优化

为了提升开发者体验，新版本做了多项改进。增加了 ProgramDescriptor 的支持，为未来的 TTNN 通用操作奠定了基础。完善了性能分析工具，现在可以生成每个核心的操作到操作时间 CSV 报告，便于进行细粒度的性能分析。

文档方面也有更新，特别是完善了 unary 操作的文档，帮助开发者更好地理解和使用这些基础操作。此外，新版本还移除了遗留的异步模式 API，简化了编程接口。

测试与验证增强

测试覆盖方面，新版本增加了多个专项测试：

针对 6U 设备的全网格带宽测试
系统健康测试二进制文件，专门用于 6U/T3K 设备
更新了 SDXL 模型的 conv2d 和 group_norm 测试
为 Resnet50 添加了稳定性测试脚本

这些新增的测试用例有助于确保系统在各种使用场景下的可靠性和性能一致性。

总结

TT-Metal v0.58.0-rc17 版本在性能、功能和稳定性三个方面都取得了显著进展。通过引入新的性能优化技术、扩展模型和算子支持、以及增强系统可靠性，这个版本为开发者提供了更强大、更稳定的计算平台。特别是对计算机视觉模型(YOLO 系列)和基础算子的支持完善，使得框架能够更好地满足多样化的 AI 应用开发需求。这些改进将为 Tenstorrent 硬件上的高性能计算应用开发奠定更加坚实的基础。

tt-metal

:metal: TT-NN operator library, and TT-Metalium low level kernel programming model.

项目地址：https://gitcode.com/GitHub_Trending/ttm/tt-metal

登录后查看全文