Tenstorrent TT-Metal v0.58.0-rc6 版本技术解析

2025-07-10 05:20:26作者：邓越浪Henry

Tenstorrent TT-Metal 是一个面向AI加速的高性能计算框架，专注于为深度学习工作负载提供高效的硬件加速支持。该项目通过创新的架构设计，实现了在特定硬件上的高性能计算能力，特别是在计算机视觉和自然语言处理等领域的模型推理和训练中表现出色。

最新发布的v0.58.0-rc6版本带来了多项重要更新和优化，主要集中在性能提升、功能扩展和稳定性改进三个方面。本文将深入解析这一版本的关键技术更新。

核心架构改进

本次版本对TT-Metal的核心架构进行了多项重要优化：

内存预取器性能模式支持：新增了DRAM预取器的性能模式选项，开发者可以根据应用场景选择不同的预取策略，在延迟和吞吐量之间取得最佳平衡。这一改进特别适合需要高带宽访问的应用场景。
多设备支持增强：通过移除DispatchMemMap单例模式并将其所有权转移至MetalContext，系统在多设备环境下的管理更加灵活和高效。同时修复了多N150设备环境下ttnn.CreateDevice的问题，提升了多设备协同工作的稳定性。
持久性缓冲区管理优化：移除了RMS中持久性缓冲区tt_stats的释放操作，避免了潜在的内存管理问题，提高了系统在长时间运行时的可靠性。

新版本在模型支持方面取得了显著进展：

YOLO系列模型增强：新增了对yolov8s_world和yolov8x模型的完整支持，包括模型跟踪和性能优化。特别是yolov9c模型的跟踪性能得到了显著提升，为实时目标检测应用提供了更好的支持。
VAE模型扩展：增加了VAE中间块和上采样块的支持，并完善了VAE解码器功能，为生成式AI模型提供了更完整的支持。
性能优化：针对特定操作如argmax、topk等进行了多核支持优化，消除了L1缓存的限制，显著提升了这些关键操作在大规模数据上的性能表现。

在计算图和算子层面，本次更新包含多项重要改进：

原位Halo多播：在WH/BH架构上实现了原位Halo多播功能，优化了数据在计算单元间的传输效率，减少了不必要的内存拷贝。
零拷贝分块限制：对零拷贝分块功能进行了优化，限制其仅能在连续的最外层维度上使用，避免了潜在的内存访问冲突问题。
新型算子支持：新增了ttnn.stack操作的支持，扩展了张量操作的能力。同时增加了ttnn.experimental.broadcast_to操作，为张量广播提供了更灵活的控制。