Tenstorrent/tt-metal v0.59.0-rc15 版本技术解析与优化亮点

2025-07-10 21:42:59作者：殷蕙予

Tenstorrent/tt-metal 是一个专注于高性能AI计算的开源项目，主要针对AI推理和训练场景提供底层硬件加速支持。该项目通过创新的架构设计，为深度学习工作负载提供高效的执行环境。最新发布的v0.59.0-rc15版本带来了多项重要改进和功能增强。

核心架构优化

本次版本在底层架构方面进行了多项重要改进。首先是对设备初始化和内存管理的优化，将FW构建和L1/DRAM清除操作从设备初始化阶段移至MetalContext初始化阶段，这一调整显著提升了设备启动效率。同时，项目团队重构了缓冲区管理机制，移除了主机端缓冲区分配/释放的概念，简化了内存管理流程。

在路由机制方面，新版本增强了2D Fabric支持，包括优化了intermesh路由到下一个mesh的性能，并修复了West路由器边缘端口在intermesh路由中的问题。这些改进使得多设备间的数据传输更加高效稳定。

性能提升与功能增强

新版本在性能优化方面做了大量工作。针对Topk操作进行了扩展以支持sub_core_grid，并充分利用列中可用的最大核心数。Argmax操作也得到改进，现在能根据NOC宽度调整每个核心的处理单元数量，提高了并行效率。

在数学运算方面，项目增加了对uint16数据类型的支持，包括乘法、按位或和异或操作。同时修复了除法运算的测试范围，并清理了相关代码。这些改进使得项目能更好地支持多样化的计算需求。

模型支持与演示增强

本次更新加强了多个流行模型的支持。Mobilenetv2和VGG_Unet模型的演示功能得到完善，Yolov8x和Yolov9c模型也进行了相应调整。特别值得注意的是，项目集成了VAE解码器到SDv1-4演示中，扩展了生成式AI应用场景。

在大型语言模型方面，项目为Llama-3.1-8B-Instruct模型重写了"performance"解码器精度，并解决了Llama TG解码在超过4k序列长度时的挂起问题。同时新增了MistralForCausalLM类以支持vLLM框架。

测试与稳定性改进

新版本在测试覆盖率和稳定性方面做了大量工作。增加了多设备Eltwise和TM压力测试，以及连接打开/关闭压力测试。修复了多个测试用例，包括针对Blackhole设备的特殊处理，确保测试在不同硬件平台上都能稳定运行。

调试工具也得到增强，包括改进的trace缓冲区大小和更完善的watcher更新，这些工具帮助开发者更有效地诊断和解决问题。

开发体验优化

项目在开发者体验方面做了多项改进。清理了大量未使用的文件和过时的API，重构了代码组织结构，使代码库更加整洁。同时改进了构建系统，包括将ttnn目标安装移动到正确的CMakeLists文件中，并修复了PCH构建问题。

文档方面也进行了更新，包括安装指南和模型更新说明，帮助新用户更快上手项目。这些改进使得项目更易于维护和扩展。

总体而言，Tenstorrent/tt-metal v0.59.0-rc15版本在性能、功能和稳定性方面都有显著提升，为AI计算提供了更加强大和可靠的底层支持。

tt-metal

:metal: TT-NN operator library, and TT-Metalium low level kernel programming model.

项目地址：https://gitcode.com/GitHub_Trending/ttm/tt-metal

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

leetcode

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Java

RuoYi-Vue3

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Vue

1.37 K

781