Tenstorrent Metal项目v0.58.0-rc22版本技术解析

2025-07-10 04:39:30作者：郦嵘贵Just

Tenstorrent Metal是一个专注于高性能计算和人工智能加速的开源项目，它提供了高效的硬件抽象层和计算框架。该项目特别针对AI工作负载进行了优化，支持多种神经网络操作和模型部署。最新发布的v0.58.0-rc22版本带来了多项重要改进和新功能，本文将深入解析这些技术更新。

核心功能增强

多核支持与性能优化

本次版本在argmax操作上实现了重大突破，新增了对任意维度和形状的多核支持。这意味着在处理大规模张量时，计算任务可以更高效地分配到多个核心上执行，显著提升了计算吞吐量。开发者特别修复了argmax在演示中导致错误输出的问题，确保了计算的准确性。

在性能优化方面，项目团队对TopK操作进行了重点改进，解决了L1缓存的限制问题。目前针对单核实现进行了优化，而对于不需要修改的多核场景则保持原有高效实现。同时，针对Llama模型的SDPA解码过程进行了优化，采用16x32的瓦片布局并移除了copy_blocks操作，进一步提升了计算效率。

张量操作扩展

新版本丰富了张量操作的支持范围，包括：

为ttnn.add操作新增了uint16数据类型支持
实现了ttnn.experimental.broadcast_to新操作
增加了对关系运算符的整数支持
为ttnn.upsample的"nearest"模式添加了对非均匀分片的支持
扩展了matmul操作，支持0D、1D和0V的特殊情况

这些扩展使得框架能够处理更广泛的数据类型和计算场景，为开发者提供了更大的灵活性。

系统架构改进

设备初始化与通信优化

项目团队对设备初始化流程进行了多项改进：

为6U设备添加了2D环面拓扑支持
在1D结构设备初始化中添加了缺失的noc选择优化
改进了reduce scatter代码，修复了围绕集群轴计算接收器/发送器ID的逻辑
将go消息从设备命令序列中分离出来
将启动消息从设备命令序列中分离

这些改进使得设备初始化和通信更加高效可靠，特别是在大规模分布式计算场景下。

存储与内存管理

内存管理方面的重要更新包括：

更新了DRAM切片大小计算逻辑
添加了监视器来捕获对DRAM的noc_inline_dw_write操作
移除了未使用的MULTI_DEVICE存储类型枚举
解决了AllGatherAsyncMinimal的段错误问题

这些改进提升了内存访问的效率和安全性，减少了潜在的错误风险。

模型支持与AI功能

模型支持扩展

新版本在模型支持方面取得了显著进展：

添加了VAE中间块和上采样块支持
更新了SDXL模型的卷积和分组归一化测试
修复了SDXL模型中分割卷积的偏置问题
为Resnet50添加了稳定性测试脚本

这些更新使得框架能够更好地支持复杂的生成式AI模型，如图像生成等应用场景。

神经网络操作优化

在神经网络基础操作方面，项目团队进行了多项优化：

更新了unary操作的文档
实现了对all_gather_concat操作的RM输入支持
为其输出添加了隐式tilize支持
更新了convnet_mnist的性能表现

这些优化使得基础神经网络操作更加高效和易用。

开发工具与测试改进

测试基础设施

测试方面的改进包括：

为6U设备添加了特定的全网格带宽测试
将FD测试迁移到CIv2环境
添加了test_system_health二进制文件以在6U/T3K上运行
修复了以太网分析器测试在微基准测试工作流中的失败问题

这些改进提升了测试覆盖率和可靠性，确保系统在不同硬件配置下的稳定性。

开发体验优化

为提升开发者体验，项目团队进行了多项改进：

添加了Docker镜像用于包验证
启用了更多编译器警告
移除了遗留的异步模式API
应用了clang格式到generic_pools.cpp
添加了ProgramDescriptor为TTNN通用操作做准备

这些改进使得开发过程更加规范和高效，有助于提升代码质量。

性能监控与分析

新版本在性能分析方面也有所增强：

为DumpDeviceProfileResults添加了FORCE_PUSH_TO_TRACY选项
更新了设备性能容限
添加了TM压力测试及相关修复
提高了Falcon7b模型的容错阈值以适应CI环境变化

这些工具和调整使得性能分析和优化更加便捷有效。

总结

Tenstorrent Metal项目的v0.58.0-rc22版本在性能、功能和稳定性方面都取得了显著进步。从多核支持到内存管理优化，从模型支持扩展到开发工具改进，这些更新共同构成了一个更强大、更可靠的AI计算框架。特别值得一提的是对复杂生成式AI模型的增强支持和对分布式计算场景的优化，这些改进使得框架在当今热门的AI应用场景中更具竞争力。

随着项目的持续发展，我们可以期待Tenstorrent Metal在AI加速和高性能计算领域发挥越来越重要的作用，为开发者和研究人员提供更强大的工具支持。

登录后查看全文