TT-Metal v0.59.0-rc4 版本技术解析与优化亮点

2025-07-10 00:29:59作者：管翌锬

:metal: TT-NN operator library, and TT-Metalium low level kernel programming model.

项目地址：https://gitcode.com/GitHub_Trending/ttm/tt-metal

TT-Metal 是 Tenstorrent 公司开发的一款高性能计算框架，专注于为 AI 和机器学习工作负载提供高效的硬件加速支持。该框架通过精细的底层优化和创新的架构设计，能够充分发挥 Tenstorrent 硬件平台的性能潜力。

核心架构优化

本次发布的 v0.59.0-rc4 版本在系统架构层面进行了多项重要改进：

设备初始化流程重构：将固件构建和内存清除操作从设备初始化阶段移至 MetalContext 初始化阶段，优化了设备启动流程，提高了初始化效率。
网格路由增强：针对 West 路由器的边缘端口进行了优化，改进了 intermesh 路由功能，同时新增了对将 4x2 网格分割为两个 2x2 网格的支持，提升了大规模部署的灵活性。
Fabric 架构升级：引入了 FabricContext 组件，重构了设备初始化流程，新增了对在 TG 网关上启动 Fabric 的支持，为分布式计算提供了更强大的基础设施。

性能优化与功能增强

内存管理改进：优化了缓冲区地址处理逻辑，移除了自定义的"buffer_address"函数，统一了内存访问接口，提高了代码的可维护性。
计算核心优化：
- 针对 Topk 操作扩展了子核心网格支持，充分利用列中的可用核心
- 调整 Argmax 操作的单位核心分配策略，基于 NOC 宽度进行优化
- 修复了 Untilize 操作在每核心输出通道超过256时的问题
张量处理增强：
- 新增了对分片行主序嵌入的支持
- 改进了 paged_fill_cache 功能，支持张量 batch_idxs 输入
- 优化了 tiled concat 操作，采用批处理转置提高效率

系统稳定性与可靠性

错误修复：解决了多个未初始化变量问题，修复了 Blackhole 平台上的以太网基准测试挂起问题。
测试覆盖增强：
- 新增了多设备 Eltwise 和 TM 压力测试
- 增加了连接打开/关闭压力测试
- 扩展了矩阵乘法测试范围，更新了批量大小获取逻辑
监控改进：更新了 watcher 组件，增强了系统监控能力，改进了 noc 状态检查脚本。

模型与演示支持

模型集成：
- 将 Yolov9c 模型迁移至 models/demos 目录
- 修复了 Yolov8x 演示问题
- 为 SDv1-4 演示集成了 VAE 解码器
- 更新了 SDXL 演示功能
性能调优：
- 为 Llama-3.1-8B-Instruct 覆盖了"performance"解码器精度
- 在 text_demo.py 中启用了预取器性能模式

开发工具与基础设施

构建系统改进：
- 合并了链接器片段，优化了构建流程
- 将 ttnn 目标安装移至专用 CMakeLists 文件
- 修复了预编译头构建问题
代码质量提升：
- 进行了全面的 IWYU(Include What You Use)清理
- 重构了程序内部类型定义
- 移除了未使用的折叠操作文件
文档更新：完善了 NOC API 文档，更新了入门指南和模型更新说明。

本次更新体现了 TT-Metal 团队在性能优化、功能扩展和系统稳定性方面的持续努力，为开发者提供了更强大、更可靠的硬件加速平台。特别值得注意的是对大规模分布式计算的支持增强，以及针对常见 AI 模型的深度优化，这些改进将显著提升实际应用中的性能和开发体验。

:metal: TT-NN operator library, and TT-Metalium low level kernel programming model.

项目地址：https://gitcode.com/GitHub_Trending/ttm/tt-metal

登录后查看全文

热门内容推荐

1 【亲测免费】开源项目 `build-your-own-x` 使用指南 2 【亲测免费】探索科技之旅：《Build Your Own X》项目详解 3 GitHub_Trending/bu/build-your-own-x自动化：CI/CD流程在自制项目中的应用 4 从零打造智能家居系统：用build-your-own-x实现家庭自动化

最新内容推荐

Degrees of Lewdity中文汉化终极指南：零基础玩家必看的完整教程 Unity游戏翻译神器：XUnity Auto Translator 完整使用指南 PythonWin7终极指南：在Windows 7上轻松安装Python 3.9+终极macOS键盘定制指南：用Karabiner-Elements提升10倍效率 Pandas数据分析实战指南：从零基础到数据处理高手 Qwen3-235B-FP8震撼升级：256K上下文+22B激活参数 7步搞定机械键盘PCB设计：从零开始打造你的专属键盘终极WeMod专业版解锁指南：3步免费获取完整高级功能 DeepSeek-R1-Distill-Qwen-32B技术揭秘：小模型如何实现大模型性能突破音频修复终极指南：让每一段受损声音重获新生

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力

openGauss-server

openGauss kernel ~ openGauss is an open source relational database management system

flutter_flutter

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统