Tenstorrent TT-Metal v0.58.0-rc6 技术解析与更新亮点

2025-07-10 03:53:29作者：虞亚竹Luna

Tenstorrent TT-Metal 是一个面向AI加速的高性能计算框架，专注于为机器学习工作负载提供高效的硬件加速支持。该项目通过创新的架构设计和软件优化，显著提升了深度学习模型的推理和训练性能。

本次发布的v0.58.0-rc6版本带来了多项重要更新和改进，涵盖了从底层硬件支持到高层API功能的多个方面。我们将深入解析这些技术更新，帮助开发者更好地理解和使用这一强大的AI加速框架。

核心架构优化

本次更新对TT-Metal的底层架构进行了多项重要改进。首先移除了DispatchMemMap单例模式，将其所有权转移至MetalContext，这一变化简化了内存管理模型，提高了系统的可维护性和扩展性。同时，框架现在支持DRAM预取器的性能模式，能够根据工作负载特性动态调整预取策略，显著提升内存访问效率。

在设备支持方面，新版本修复了RISCV_SOFT_RESET_0_BRISC的值偏移问题，确保硬件复位操作的准确性。此外，还针对Blackhole（BH）和Wormhole（WH）架构优化了原位Halo多播功能，提升了多设备间的数据交换性能。

模型支持与性能提升

v0.58.0-rc6版本显著扩展了对多种AI模型的支持和优化：

YOLO系列模型：新增对yolov8s_world和yolov8x模型的追踪支持，同时为yolov9c模型提供了性能调优，使这些计算机视觉模型能够在TT-Metal平台上高效运行。
VAE解码器：添加了完整的VAE（变分自编码器）中间块和上采样块支持，为生成式AI应用提供了更完整的支持。
ResNet50稳定性：引入了专门的稳定性测试脚本，确保这一经典CNN模型在TT-Metal平台上的可靠运行。
SDXL优化：修复了分割卷积中的偏置问题，并更新了相关测试，提升了Stable Diffusion XL模型的性能和稳定性。

计算操作扩展

新版本在计算操作支持方面有多项重要扩展：

数据类型支持：为多种操作添加了整型支持，包括零比较操作（如eq）、关系运算等，扩展了框架的应用场景。
新操作实现：
- 实现了ttnn.sort的单核版本
- 新增ttnn.experimental.broadcast_to操作
- 添加了ttnn.stack操作支持
- 改进了argmax操作的多核支持，使其能够处理任意秩和形状的输入
现有操作优化：
- 为ttnn.add添加了uint16支持
- 优化了ttnn.upsample在nearest模式下的非均匀分片支持
- 改进了all_gather_concat对RM输入的支持，并为其输出添加了隐式tilize功能

性能分析与调试工具

本次更新增强了性能分析和调试能力：

性能分析：新增了生成每核心操作到操作时间的CSV功能，使开发者能够更精细地分析计算流水线。
调试工具：
- 添加了监视器来捕获对DRAM的noc_inline_dw_write操作
- 实现了设备性能分派边界的更新
- 针对BH架构禁用了TensixInlineWriteDynamicNoc以提高稳定性
测试改进：
- 更新了convnet_mnist的性能基准
- 添加了6U特定全网格带宽测试
- 实现了TM压力测试及相应修复

系统稳定性与部署改进

在系统稳定性和部署方面，v0.58.0-rc6版本包含多项重要改进：

内存管理：移除了持久缓冲区tt_stats在RMS中的释放操作，避免了潜在的内存问题。
设备管理：修复了多N150设备下ttnn.CreateDevice的问题，提高了多设备环境的可靠性。
部署优化：
- 开始提供-dev开发包
- 添加了用于包验证的Docker镜像
- 限制了xtensor-blas依赖的范围
编译改进：启用了更多编译器警告，帮助开发者及早发现潜在问题。

总结

Tenstorrent TT-Metal v0.58.0-rc6版本在模型支持、计算操作扩展、性能优化和系统稳定性等方面都有显著进步。这些更新不仅增强了框架的功能性，也提高了其在复杂AI工作负载中的表现。特别是对YOLO系列、VAE和SDXL等模型的支持优化，使得TT-Metal在计算机视觉和生成式AI领域的应用更加广泛和高效。

随着数据类型支持的扩展和新操作的加入，开发者现在能够实现更复杂的算法和模型。而性能分析和调试工具的增强，则为优化工作负载提供了更强大的支持。这些改进共同推动了TT-Metal作为一个高性能AI加速平台的发展，为开发者提供了更强大、更灵活的工具来构建和部署AI应用。

tt-metal

:metal: TT-NN operator library, and TT-Metalium low level kernel programming model.

项目地址：https://gitcode.com/GitHub_Trending/ttm/tt-metal

登录后查看全文