首页
/ Tenstorrent TT-Metal v0.58.0-rc26 版本技术解析

Tenstorrent TT-Metal v0.58.0-rc26 版本技术解析

2025-07-10 17:31:52作者:滕妙奇

Tenstorrent TT-Metal 是一个专注于高性能计算和人工智能加速的开源项目,它提供了强大的硬件抽象层和编程接口,使开发者能够充分利用Tenstorrent处理器的计算能力。该项目特别适用于深度学习推理和训练任务,通过优化的计算内核和高效的内存管理,为AI工作负载提供卓越的性能。

核心功能更新

设备性能优化与稳定性提升

本次版本对设备性能进行了多项优化,包括更新了设备性能边界值(performance margins),这些调整有助于在不同工作负载下实现更稳定的性能表现。特别值得注意的是,针对Resnet50模型增加了稳定性测试脚本,这将帮助开发者更好地评估和优化模型在Tenstorrent硬件上的运行表现。

新型算子支持

  1. 广播操作支持:新增了ttnn.experimental.broadcast_to操作符,扩展了张量广播能力,使数据能在不同形状的张量间自动扩展,简化了张量运算的代码编写。

  2. 堆叠操作增强:为ttnn.stack操作提供了更全面的支持,这一功能在构建复杂神经网络结构时尤为重要,特别是在处理多输入或多分支网络时。

  3. 关系运算扩展:增加了对整数类型的支持,使得关系运算(如等于、大于等比较操作)可以应用于更广泛的数据类型场景。

内存管理与通信优化

  1. 非一致性内存访问监控:新增了针对DRAM的noc_inline_dw_write操作监控机制,这有助于开发者识别和优化潜在的内存访问瓶颈。

  2. 分布式计算改进

    • 优化了all_gather_concat操作,支持行主序(RM)输入,并为其输出添加了隐式平铺(tilize)功能
    • 修复了reduce scatter操作中接收方/发送方ID计算的逻辑问题,提升了多设备间数据交换的可靠性
    • 解决了AllGatherAsyncMinimal可能出现的段错误问题

架构与基础设施改进

编译器与工具链

  1. 警告系统增强:启用了更多编译器警告选项,帮助开发者在早期发现潜在问题,提高代码质量。

  2. 构建系统优化:移除了对MULTI_DEVICE存储类型枚举的支持,简化了API设计,减少了不必要的复杂性。

  3. 性能分析工具:为DumpDeviceProfileResults增加了FORCE_PUSH_TO_TRACY选项,增强了性能分析数据的收集能力。

测试与验证

  1. 测试框架改进:将功能测试(FD tests)迁移至CIv2环境,提高了测试效率和可靠性。

  2. 系统健康监测:新增了test_system_health二进制程序,专门用于6U/T3K设备的系统健康检查。

  3. 微基准测试修复:解决了以太网性能分析测试在金属微基准测试工作流中的失败问题。

模型支持与AI框架集成

  1. VAE架构增强:为变分自编码器(VAE)添加了midblock和upblocks支持,扩展了生成模型的能力。

  2. Llama优化:通过使用16x32分块和移除copy_blocks操作,显著优化了Llama模型的SDPA解码性能。

  3. 上采样操作改进:为ttnn.upsample的最近邻模式添加了对非均匀分片(unven shards)的支持,提高了图像处理任务的灵活性。

  4. 卷积网络优化:更新了convnet_mnist的实现,展示了性能改进后的效果。

开发者体验提升

  1. Docker支持:新增了用于包验证的Docker镜像,简化了开发环境的搭建和验证流程。

  2. 代码质量工具:应用了clang格式到generic_pools.cpp等文件,统一了代码风格。

  3. 文档更新:完善了安装指南和模型更新说明,帮助开发者更快上手。

  4. API清理:移除了遗留的异步模式API,简化了编程接口,减少了维护负担。

总结

Tenstorrent TT-Metal v0.58.0-rc26版本带来了显著的性能优化和新功能支持,特别是在AI模型加速和分布式计算方面。通过新增的算子支持、内存管理优化和测试框架改进,这个版本为开发者构建高效AI应用提供了更强大的工具链。系统健康监测和性能分析工具的增强也使得在Tenstorrent硬件上开发和调试复杂应用变得更加便捷。这些改进共同推动了Tenstorrent生态系统的发展,为高性能AI计算提供了更可靠的平台基础。

登录后查看全文
热门项目推荐

热门内容推荐

最新内容推荐

项目优选

收起
RuoYi-Vue3RuoYi-Vue3
🎉 (RuoYi)官方仓库 基于SpringBoot,Spring Security,JWT,Vue3 & Vite、Element Plus 的前后端分离权限管理系统
Vue
852
505
kernelkernel
deepin linux kernel
C
21
5
openHiTLSopenHiTLS
旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件,通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求,让密码技术应用更简单,同时探索后量子等先进算法创新实践,构建密码前沿技术底座!
C
240
283
ShopXO开源商城ShopXO开源商城
🔥🔥🔥ShopXO企业级免费开源商城系统,可视化DIY拖拽装修、包含PC、H5、多端小程序(微信+支付宝+百度+头条&抖音+QQ+快手)、APP、多仓库、多商户、多门店、IM客服、进销存,遵循MIT开源协议发布、基于ThinkPHP8框架研发
JavaScript
93
15
UAVSUAVS
智能无人机路径规划仿真系统是一个具有操作控制精细、平台整合性强、全方向模型建立与应用自动化特点的软件。它以A、B两国在C区开展无人机战争为背景,该系统的核心功能是通过仿真平台规划无人机航线,并进行验证输出,数据可导入真实无人机,使其按照规定路线精准抵达战场任一位置,支持多人多设备编队联合行动。
JavaScript
78
55
nop-entropynop-entropy
Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台,包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分,采用java语言实现,可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用
Java
7
0
vue-devuivue-devui
基于全新 DevUI Design 设计体系的 Vue3 组件库,面向研发工具的开源前端解决方案。
TypeScript
614
74
ohos_react_nativeohos_react_native
React Native鸿蒙化仓库
C++
175
260
CangjieCommunityCangjieCommunity
为仓颉编程语言开发者打造活跃、开放、高质量的社区环境
Markdown
1.07 K
0
Cangjie-ExamplesCangjie-Examples
本仓将收集和展示高质量的仓颉示例代码,欢迎大家投稿,让全世界看到您的妙趣设计,也让更多人通过您的编码理解和喜爱仓颉语言。
Cangjie
331
1.07 K