TT-Metal v0.58.0-rc25 版本技术解析

2025-07-10 04:25:18作者：史锋燃Gardner

TT-Metal 是一个高性能计算框架，专注于为AI和机器学习工作负载提供高效的硬件加速支持。该项目通过优化底层硬件资源利用，为深度学习模型提供强大的计算能力。最新发布的v0.58.0-rc25版本带来了多项重要改进和新功能。

核心功能增强

本次更新在多方面进行了优化，显著提升了框架的性能和稳定性。其中最重要的改进包括：

多核支持扩展：为argmax操作添加了多核支持，现在可以处理任意维度和形状的张量，大幅提升了大规模张量处理的效率。
设备初始化优化：增加了对2D Torus拓扑结构的支持，特别针对6U硬件配置进行了优化，使设备初始化更加灵活高效。
内存管理改进：更新了DRAM切片大小的计算逻辑，优化了内存分配策略，减少了内存碎片，提高了整体系统性能。

性能优化

性能方面，本次更新包含多项关键优化：

针对Llama模型的SDPA解码过程进行了深度优化，采用16x32瓦片布局并移除了不必要的块复制操作，显著提升了推理速度。
更新了设备性能调度余量参数，确保系统在不同负载下都能保持最佳性能状态。
增加了对1D Fabric架构的微调，解决了之前版本中存在的性能瓶颈问题。

新功能与API改进

框架功能方面，v0.58.0-rc25版本引入了多项新特性：

新增TTNN操作：
- 实现了stack操作支持
- 增加了experimental.broadcast_to操作
- 为ttnn.add添加了uint16数据类型支持
- 为关系运算符添加了整型支持
API改进：
- 移除了遗留的异步模式API，简化了编程接口
- 为ProgramDescriptor添加了支持，为未来的TTNN通用操作做准备
- 改进了all_gather_concat操作，现在支持RM输入并为其输出添加了隐式tilize功能
张量处理增强：
- 为ttnn.upsample的nearest模式添加了对非均匀分片的支持
- 扩展了matmul操作，现在支持0D、1D和0V张量

系统稳定性与测试

为确保系统可靠性，本次更新包含了多项稳定性改进：

新增了系统健康测试二进制文件，专门针对6U/T3K硬件配置
实现了Resnet50的稳定性测试脚本
增加了设备性能监控机制，能够捕获DRAM的noc_inline_dw_write操作
更新了SDXL模型的卷积和group_norm测试用例

开发者体验改进

为提升开发者体验，本次更新包含以下改进：

启用了更多编译器警告，帮助开发者及早发现潜在问题
优化了代码组织结构，清理了不必要的静态声明
改进了导入逻辑，避免从测试文件中导入函数
增加了Docker镜像支持，简化了包验证流程

总结

TT-Metal v0.58.0-rc25版本在多核支持、性能优化和新功能扩展方面取得了显著进展。这些改进不仅提升了框架的计算效率，也增强了其在不同硬件配置上的适应能力。特别是对Llama模型和SDXL模型的优化，将直接提升这些流行模型在实际应用中的性能表现。对于开发者而言，更清晰的API和增强的测试工具将大大提升开发效率和代码质量。

tt-metal

ttnn - a python API and OP library. TT-Metalium - a low level kernel programming model.

项目地址：https://gitcode.com/gh_mirrors/tt/tt-metal

登录后查看全文