Tenstorrent TT-Metal v0.58.0-rc26 版本技术解析
Tenstorrent TT-Metal 是一个专注于高性能计算和人工智能加速的开源项目,它提供了强大的硬件抽象层和编程接口,使开发者能够充分利用Tenstorrent处理器的计算能力。该项目特别适用于深度学习推理和训练任务,通过优化的计算内核和高效的内存管理,为AI工作负载提供卓越的性能。
核心功能更新
设备性能优化与稳定性提升
本次版本对设备性能进行了多项优化,包括更新了设备性能边界值(performance margins),这些调整有助于在不同工作负载下实现更稳定的性能表现。特别值得注意的是,针对Resnet50模型增加了稳定性测试脚本,这将帮助开发者更好地评估和优化模型在Tenstorrent硬件上的运行表现。
新型算子支持
-
广播操作支持:新增了
ttnn.experimental.broadcast_to
操作符,扩展了张量广播能力,使数据能在不同形状的张量间自动扩展,简化了张量运算的代码编写。 -
堆叠操作增强:为
ttnn.stack
操作提供了更全面的支持,这一功能在构建复杂神经网络结构时尤为重要,特别是在处理多输入或多分支网络时。 -
关系运算扩展:增加了对整数类型的支持,使得关系运算(如等于、大于等比较操作)可以应用于更广泛的数据类型场景。
内存管理与通信优化
-
非一致性内存访问监控:新增了针对DRAM的
noc_inline_dw_write
操作监控机制,这有助于开发者识别和优化潜在的内存访问瓶颈。 -
分布式计算改进:
- 优化了
all_gather_concat
操作,支持行主序(RM)输入,并为其输出添加了隐式平铺(tilize)功能 - 修复了reduce scatter操作中接收方/发送方ID计算的逻辑问题,提升了多设备间数据交换的可靠性
- 解决了
AllGatherAsyncMinimal
可能出现的段错误问题
- 优化了
架构与基础设施改进
编译器与工具链
-
警告系统增强:启用了更多编译器警告选项,帮助开发者在早期发现潜在问题,提高代码质量。
-
构建系统优化:移除了对
MULTI_DEVICE
存储类型枚举的支持,简化了API设计,减少了不必要的复杂性。 -
性能分析工具:为
DumpDeviceProfileResults
增加了FORCE_PUSH_TO_TRACY
选项,增强了性能分析数据的收集能力。
测试与验证
-
测试框架改进:将功能测试(FD tests)迁移至CIv2环境,提高了测试效率和可靠性。
-
系统健康监测:新增了
test_system_health
二进制程序,专门用于6U/T3K设备的系统健康检查。 -
微基准测试修复:解决了以太网性能分析测试在金属微基准测试工作流中的失败问题。
模型支持与AI框架集成
-
VAE架构增强:为变分自编码器(VAE)添加了midblock和upblocks支持,扩展了生成模型的能力。
-
Llama优化:通过使用16x32分块和移除
copy_blocks
操作,显著优化了Llama模型的SDPA解码性能。 -
上采样操作改进:为
ttnn.upsample
的最近邻模式添加了对非均匀分片(unven shards)的支持,提高了图像处理任务的灵活性。 -
卷积网络优化:更新了convnet_mnist的实现,展示了性能改进后的效果。
开发者体验提升
-
Docker支持:新增了用于包验证的Docker镜像,简化了开发环境的搭建和验证流程。
-
代码质量工具:应用了clang格式到
generic_pools.cpp
等文件,统一了代码风格。 -
文档更新:完善了安装指南和模型更新说明,帮助开发者更快上手。
-
API清理:移除了遗留的异步模式API,简化了编程接口,减少了维护负担。
总结
Tenstorrent TT-Metal v0.58.0-rc26版本带来了显著的性能优化和新功能支持,特别是在AI模型加速和分布式计算方面。通过新增的算子支持、内存管理优化和测试框架改进,这个版本为开发者构建高效AI应用提供了更强大的工具链。系统健康监测和性能分析工具的增强也使得在Tenstorrent硬件上开发和调试复杂应用变得更加便捷。这些改进共同推动了Tenstorrent生态系统的发展,为高性能AI计算提供了更可靠的平台基础。
- DDeepSeek-V3.1-BaseDeepSeek-V3.1 是一款支持思考模式与非思考模式的混合模型Python00
- QQwen-Image-Edit基于200亿参数Qwen-Image构建,Qwen-Image-Edit实现精准文本渲染与图像编辑,融合语义与外观控制能力Jinja00
GitCode-文心大模型-智源研究院AI应用开发大赛
GitCode&文心大模型&智源研究院强强联合,发起的AI应用开发大赛;总奖池8W,单人最高可得价值3W奖励。快来参加吧~042CommonUtilLibrary
快速开发工具类收集,史上最全的开发工具类,欢迎Follow、Fork、StarJava02GitCode百大开源项目
GitCode百大计划旨在表彰GitCode平台上积极推动项目社区化,拥有广泛影响力的G-Star项目,入选项目不仅代表了GitCode开源生态的蓬勃发展,也反映了当下开源行业的发展趋势。06GOT-OCR-2.0-hf
阶跃星辰StepFun推出的GOT-OCR-2.0-hf是一款强大的多语言OCR开源模型,支持从普通文档到复杂场景的文字识别。它能精准处理表格、图表、数学公式、几何图形甚至乐谱等特殊内容,输出结果可通过第三方工具渲染成多种格式。模型支持1024×1024高分辨率输入,具备多页批量处理、动态分块识别和交互式区域选择等创新功能,用户可通过坐标或颜色指定识别区域。基于Apache 2.0协议开源,提供Hugging Face演示和完整代码,适用于学术研究到工业应用的广泛场景,为OCR领域带来突破性解决方案。00openHiTLS
旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件,通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求,让密码技术应用更简单,同时探索后量子等先进算法创新实践,构建密码前沿技术底座!C0287- WWan2.2-S2V-14B【Wan2.2 全新发布|更强画质,更快生成】新一代视频生成模型 Wan2.2,创新采用MoE架构,实现电影级美学与复杂运动控制,支持720P高清文本/图像生成视频,消费级显卡即可流畅运行,性能达业界领先水平Python00
- GGLM-4.5-AirGLM-4.5 系列模型是专为智能体设计的基础模型。GLM-4.5拥有 3550 亿总参数量,其中 320 亿活跃参数;GLM-4.5-Air采用更紧凑的设计,拥有 1060 亿总参数量,其中 120 亿活跃参数。GLM-4.5模型统一了推理、编码和智能体能力,以满足智能体应用的复杂需求Jinja00
Yi-Coder
Yi Coder 编程模型,小而强大的编程助手HTML013
热门内容推荐
最新内容推荐
项目优选









