Tenstorrent TT-Metal v0.59.0-rc27 版本技术解析

2025-07-09 13:44:47作者：吴年前Myrtle

Tenstorrent TT-Metal 是一个面向AI加速的开源项目，专注于为深度学习工作负载提供高性能计算解决方案。该项目通过创新的硬件架构和软件栈设计，为大规模模型训练和推理提供了高效的执行环境。

本次发布的v0.59.0-rc27版本带来了多项重要更新和优化，涵盖了从底层硬件操作到高层模型支持等多个方面。下面我们将深入分析这次更新的关键技术内容。

核心架构优化

本次版本在底层架构方面进行了多项重要改进：

Fabric架构增强：新增了FabricContext支持，优化了设备初始化流程，并增加了对TG网关上Fabric启动的支持。这一改进使得分布式计算任务能够更高效地在多个计算节点间协调执行。
动态路由集成：实现了2D Push Fabric与动态路由的集成，为大规模分布式计算提供了更灵活的数据传输路径选择能力。
缓冲区管理重构：移除了主机端缓冲区分配/释放的概念，简化了内存管理模型，提高了系统整体效率。

性能优化与功能增强

在性能优化方面，本次更新包含多项重要改进：

预取器性能模式：在text_demo.py中启用了预取器性能模式，显著提升了数据处理效率。
Llama模型优化：针对Llama-3.1-8B-Instruct模型优化了DecodersPrecision设置，并解决了TG解码中序列长度超过4k时的挂起问题。
Reduction操作增强：为std和var操作增加了校正支持，并优化了输出处理。
数据类型支持扩展：新增了对uint16数据类型的支持，包括mul、bitwise or和xor等操作。

模型支持与示例

本次更新丰富了模型支持范围：

Llama模型：增加了对Llama 3模型权重导入的支持，并优化了batch-1推理场景。
Mistral模型：为vLLM添加了MistralForCausalLM类支持。
训练架构：实现了3-tier训练架构，支持自定义分词器场景。
新增示例：提供了VGG_Unet和VAEGN等新模型的实现示例。

测试与稳定性改进

在系统稳定性方面，本次更新包含多项重要修复：

断言修复：解决了debug构建中dprint/watcher断言抛出问题。
测试优化：针对BH架构调整了多个测试用例，包括跳过不支持的测试场景。
循环测试：增加了数据移动的循环测试验证。
权重缓存：改进了权重缓存机制，优化了大型模型加载效率。

代码质量与文档

在代码质量和文档方面也有显著改进：

命名规范化：将SLAVE更名为SUBORDINATE，遵循更现代的术语规范。
文档更新：完善了FMOD操作文档，更新了Yolov8和Llama8B BH模型的README说明。
代码结构优化：合并了global_circular_buffer相关头文件，简化了代码结构。
类型系统：修复了fold初始化类型问题，增强了类型安全性。

总结

Tenstorrent TT-Metal v0.59.0-rc27版本在分布式计算支持、模型优化和系统稳定性方面都取得了显著进展。特别是对Llama和Mistral等大型语言模型的优化，以及Fabric架构的增强，为大规模AI工作负载提供了更强大的支持。这些改进使得TT-Metal在AI加速领域继续保持竞争力，为开发者和研究人员提供了更高效、更稳定的计算平台。

tt-metal

:metal: TT-NN operator library, and TT-Metalium low level kernel programming model.

项目地址：https://gitcode.com/GitHub_Trending/ttm/tt-metal

登录后查看全文