Tenstorrent Metal项目v0.59.0-rc6版本技术解析

2025-07-10 09:24:46作者：牧宁李

Tenstorrent Metal是一个专注于高性能AI计算的硬件加速项目，它通过定制化的硬件架构和优化的软件栈为深度学习工作负载提供加速能力。该项目持续迭代更新，最新发布的v0.59.0-rc6版本带来了多项重要改进和功能增强。

核心架构优化

本次版本在底层架构方面进行了多项重要改进。首先是对设备初始化的重构，将固件构建和L1/DRAM清除操作从设备初始化阶段移至MetalContext初始化阶段，这一调整优化了设备启动流程，提高了初始化效率。同时，项目改进了设备池的初始化机制，移除了不必要的noexcept限定符，使错误处理更加灵活。

在内存管理方面，版本引入了ND分片支持，为mesh设备和缓冲区提供了更灵活的内存分配策略。同时移除了自定义的"buffer_address"函数，转而使用统一的transform接口来封装主机缓冲区操作，提高了代码的一致性和安全性。

性能提升与功能增强

新版本在多方面实现了性能提升：

矩阵乘法优化：调整了per_core_M的计算方式，优化了大规模矩阵运算的性能表现。同时更新了get_batch_size函数并调整了matmul测试，确保批量处理效率。
TopK和Argmax改进：TopK操作扩展支持子核心网格，并在列中使用最大可用核心数。Argmax操作则根据NOC宽度调整每核心处理单元数，显著提升了这些常用操作的执行效率。
路由优化：针对West路由器边缘端口进行了intermesh路由的修复，并优化了intermesh路由到下一个mesh的效率，提升了多设备间的通信性能。
动态路由集成：成功将动态路由功能与2D Push Fabric集成，为大规模分布式计算提供了更灵活的通信机制。

新模型支持与演示

v0.59.0-rc6版本加强了对多种AI模型的支持：

Mobilenetv2：完成了Mobilenetv2演示的搭建工作，为移动端视觉应用提供了新的参考实现。
YOLO系列：不仅修复了Yolov8x演示中的问题，还新增了Yolov10x模型演示，增强了目标检测能力。
稳定扩散：将VAE解码器集成到SDv1-4演示中，完善了图像生成流程。
Llama模型：为Llama-3.1-8B-Instruct模型覆盖了"performance"解码器精度设置，优化了大语言模型的推理性能。

开发者工具与测试增强

版本对开发者工具和测试套件进行了多项改进：

测试覆盖：新增了多设备Eltwise和TM压力测试、连接开/关压力测试等多种测试场景，确保系统稳定性。
性能分析：增加了在不同条件下测量性能的方法，为优化工作提供了更全面的数据支持。
文档完善：更新了NOC API文档，使开发者能更好地理解和使用底层通信接口。
CI/CD改进：优化了持续集成流程，包括使用内部Docker代理、增加GH工作流自动报告等功能，提高了开发效率。

底层系统改进

在底层系统方面，版本进行了多项重要调整：

链接器优化：取消了链接器脚本的区域限制，计算LMA地址，并合并了链接器片段，提高了代码加载效率。
固件更新：升级至sfpi v6.11.1版本，支持xz压缩，减小了固件体积。
核心组件重构：开始创建TT-NN的核心组件，将tensor相关代码移至新的core和api目录，改善了代码组织结构。
Socket API：新增了Socket API及其测试，为网络通信提供了更底层的支持。

这个版本标志着Tenstorrent Metal项目在性能、稳定性和功能丰富度上的又一次显著提升，为AI加速领域的研究和应用提供了更强大的工具支持。

登录后查看全文

项目优选

收起

deepin linux kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

昇腾LLM分布式训练框架

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

Oohos_react_native

React Native鸿蒙化仓库