Tenstorrent TT-Metal v0.58.0-rc26 版本技术解析
Tenstorrent TT-Metal 是一个专注于高性能计算和人工智能加速的开源项目,它提供了强大的硬件抽象层和编程接口,使开发者能够充分利用Tenstorrent处理器的计算能力。该项目特别适用于深度学习推理和训练任务,通过优化的计算内核和高效的内存管理,为AI工作负载提供卓越的性能。
核心功能更新
设备性能优化与稳定性提升
本次版本对设备性能进行了多项优化,包括更新了设备性能边界值(performance margins),这些调整有助于在不同工作负载下实现更稳定的性能表现。特别值得注意的是,针对Resnet50模型增加了稳定性测试脚本,这将帮助开发者更好地评估和优化模型在Tenstorrent硬件上的运行表现。
新型算子支持
-
广播操作支持:新增了
ttnn.experimental.broadcast_to操作符,扩展了张量广播能力,使数据能在不同形状的张量间自动扩展,简化了张量运算的代码编写。 -
堆叠操作增强:为
ttnn.stack操作提供了更全面的支持,这一功能在构建复杂神经网络结构时尤为重要,特别是在处理多输入或多分支网络时。 -
关系运算扩展:增加了对整数类型的支持,使得关系运算(如等于、大于等比较操作)可以应用于更广泛的数据类型场景。
内存管理与通信优化
-
非一致性内存访问监控:新增了针对DRAM的
noc_inline_dw_write操作监控机制,这有助于开发者识别和优化潜在的内存访问瓶颈。 -
分布式计算改进:
- 优化了
all_gather_concat操作,支持行主序(RM)输入,并为其输出添加了隐式平铺(tilize)功能 - 修复了reduce scatter操作中接收方/发送方ID计算的逻辑问题,提升了多设备间数据交换的可靠性
- 解决了
AllGatherAsyncMinimal可能出现的段错误问题
- 优化了
架构与基础设施改进
编译器与工具链
-
警告系统增强:启用了更多编译器警告选项,帮助开发者在早期发现潜在问题,提高代码质量。
-
构建系统优化:移除了对
MULTI_DEVICE存储类型枚举的支持,简化了API设计,减少了不必要的复杂性。 -
性能分析工具:为
DumpDeviceProfileResults增加了FORCE_PUSH_TO_TRACY选项,增强了性能分析数据的收集能力。
测试与验证
-
测试框架改进:将功能测试(FD tests)迁移至CIv2环境,提高了测试效率和可靠性。
-
系统健康监测:新增了
test_system_health二进制程序,专门用于6U/T3K设备的系统健康检查。 -
微基准测试修复:解决了以太网性能分析测试在金属微基准测试工作流中的失败问题。
模型支持与AI框架集成
-
VAE架构增强:为变分自编码器(VAE)添加了midblock和upblocks支持,扩展了生成模型的能力。
-
Llama优化:通过使用16x32分块和移除
copy_blocks操作,显著优化了Llama模型的SDPA解码性能。 -
上采样操作改进:为
ttnn.upsample的最近邻模式添加了对非均匀分片(unven shards)的支持,提高了图像处理任务的灵活性。 -
卷积网络优化:更新了convnet_mnist的实现,展示了性能改进后的效果。
开发者体验提升
-
Docker支持:新增了用于包验证的Docker镜像,简化了开发环境的搭建和验证流程。
-
代码质量工具:应用了clang格式到
generic_pools.cpp等文件,统一了代码风格。 -
文档更新:完善了安装指南和模型更新说明,帮助开发者更快上手。
-
API清理:移除了遗留的异步模式API,简化了编程接口,减少了维护负担。
总结
Tenstorrent TT-Metal v0.58.0-rc26版本带来了显著的性能优化和新功能支持,特别是在AI模型加速和分布式计算方面。通过新增的算子支持、内存管理优化和测试框架改进,这个版本为开发者构建高效AI应用提供了更强大的工具链。系统健康监测和性能分析工具的增强也使得在Tenstorrent硬件上开发和调试复杂应用变得更加便捷。这些改进共同推动了Tenstorrent生态系统的发展,为高性能AI计算提供了更可靠的平台基础。
atomcodeClaude Code 的开源替代方案。连接任意大模型,编辑代码,运行命令,自动验证 — 全自动执行。用 Rust 构建,极致性能。 | An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get StartedRust0152- DDeepSeek-V4-ProDeepSeek-V4-Pro(总参数 1.6 万亿,激活 49B)面向复杂推理和高级编程任务,在代码竞赛、数学推理、Agent 工作流等场景表现优异,性能接近国际前沿闭源模型。Python00
LongCat-Video-Avatar-1.5最新开源LongCat-Video-Avatar 1.5 版本,这是一款经过升级的开源框架,专注于音频驱动人物视频生成的极致实证优化与生产级就绪能力。该版本在 LongCat-Video 基础模型之上构建,可生成高度稳定的商用级虚拟人视频,支持音频-文本转视频(AT2V)、音频-文本-图像转视频(ATI2V)以及视频续播等原生任务,并能无缝兼容单流与多流音频输入。00
auto-devAutoDev 是一个 AI 驱动的辅助编程插件。AutoDev 支持一键生成测试、代码、提交信息等,还能够与您的需求管理系统(例如Jira、Trello、Github Issue 等)直接对接。 在IDE 中,您只需简单点击,AutoDev 会根据您的需求自动为您生成代码。Kotlin03
Intern-S2-PreviewIntern-S2-Preview,这是一款高效的350亿参数科学多模态基础模型。除了常规的参数与数据规模扩展外,Intern-S2-Preview探索了任务扩展:通过提升科学任务的难度、多样性与覆盖范围,进一步释放模型能力。Python00
skillhubopenJiuwen 生态的 Skill 托管与分发开源方案,支持自建与可选 ClawHub 兼容。Python0112