TT-Metal v0.58.0-rc18 版本技术解析与架构演进

2025-07-10 19:14:39作者：苗圣禹Peter

TT-Metal 是一个专注于高性能计算的硬件加速框架，它通过创新的架构设计实现了在特定硬件上的高效运算。最新发布的 v0.58.0-rc18 版本带来了多项重要改进，从底层硬件支持到上层算子优化都有显著提升。

核心架构改进

本次版本在硬件支持方面取得了重要突破，移除了对6U设备的限制，这意味着框架现在能够更好地支持更大规模的硬件配置。同时新增了对2D Torus拓扑结构的支持，为6U设备提供了更灵活的初始化选项，这对于大规模并行计算场景尤为重要。

在内存管理方面，开发团队做出了两项关键改进：移除了DispatchMemMap单例模式，将其所有权转移至MetalContext，这一变化使得内存管理更加模块化和可控；同时优化了DRAM预取器的性能模式支持，显著提升了内存访问效率。

性能优化与功能增强

新版本在多方面进行了性能优化，包括：

针对Llama SDPA解码阶段的优化，采用16x32分块策略并移除了不必要的块拷贝操作，大幅提升了处理效率
为argmax操作添加了多核支持，使其能够处理任意维度和形状的张量
改进了TopK操作的L1缓存限制，为单核实现提供了更好的支持
增加了对RM输入的支持，并为all_gather_concat操作实现了隐式tilize输出

在功能扩展方面，新增了对Mistral-7B模型的支持，虽然这一特性在后续版本中被暂时回滚，但展示了框架向更大模型扩展的潜力。同时，VAE解码器的加入也为图像生成类应用提供了新的可能性。

系统稳定性与测试增强

开发团队在本版本中投入了大量精力提升系统稳定性：

新增了系统健康检查二进制文件，专门针对6U/T3K设备设计
实现了Resnet50的稳定性测试脚本
增加了对DRAM写入操作的监控机制，能够捕获noc_inline_dw_write到DRAM的操作
修复了多个可能导致系统不稳定的问题，如ElfFile构造函数的悬垂引用问题

测试覆盖率方面，新增了针对6U设备的全网格带宽测试，并更新了多个模型的性能测试标准，包括SDXL卷积层和组归一化测试。

开发者体验改进

为提升开发者体验，本版本进行了多项改进：

移除了遗留的异步模式API，简化了编程接口
增加了程序描述符(ProgramDescriptor)支持，为TTNN通用操作奠定基础
改进了错误处理和日志生成机制
优化了Docker镜像构建过程，为软件包验证提供了更好的支持

TT-Metal v0.58.0-rc18版本展现了框架在性能、稳定性和功能性方面的持续进步，为开发者提供了更强大、更可靠的硬件加速解决方案。这些改进不仅提升了现有应用的运行效率，也为支持更复杂的模型和更大规模的计算任务打下了坚实基础。

tt-metal

ttnn - a python API and OP library. TT-Metalium - a low level kernel programming model.

项目地址：https://gitcode.com/gh_mirrors/tt/tt-metal

登录后查看全文

项目优选

收起

docs

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力

TT-Metal v0.58.0-rc18 版本技术解析与架构演进

核心架构改进

性能优化与功能增强

系统稳定性与测试增强

开发者体验改进

热门内容推荐

最新内容推荐

项目优选

TT-Metal v0.58.0-rc18 版本技术解析与架构演进

核心架构改进

性能优化与功能增强

系统稳定性与测试增强

开发者体验改进

相关内容推荐

热门内容推荐

最新内容推荐

项目优选