TorchAO 0.9.0发布：稀疏化技术升级与量化API重大革新

2025-06-24 03:37:30作者：谭伦延

项目简介

TorchAO是PyTorch生态系统中的一个重要组件，专注于模型优化技术的研究与实现。作为PyTorch官方支持的模型优化工具库，TorchAO提供了包括量化、稀疏化等多种模型优化技术，帮助开发者在不显著损失模型精度的情况下，大幅提升模型推理和训练效率。

核心亮点

块稀疏技术正式发布

在0.9.0版本中，块稀疏技术从实验状态正式晋升为稳定功能。这项技术通过将权重矩阵划分为固定大小的块，并智能地选择保留或丢弃整个块，实现了模型的高效压缩和加速。

使用方式极为简洁：

from torchao.sparsity import sparsify, block_sparse_weight
sparsify_(model, block_sparse_weight(blocksize=64))

性能表现令人印象深刻，在Meta-Llama-3.1-8B模型上的测试显示：

使用64x64块大小和90%稀疏率时，解码速度提升近2倍（262.94 tok/s vs 134.40 tok/s）
模型大小从15.01GB压缩至4.88GB，减少了67%

量化API重大重构

0.9.0版本对量化API进行了全面重构，从基于可调用对象的配置方式转向更直观的配置对象模式。这一变化带来了三大优势：

与生态系统其他组件保持更好的一致性
配置实例化后可进行详细检查
消除了常见的混淆来源

新旧API对比示例：

# 旧版API（0.8.0及之前）
quantize_(model, int8_weight_only(group_size=128))

# 新版API（0.9.0及之后）
quantize_(model, Int8WeightOnlyConfig(group_size=128))

虽然旧版API仍可继续使用，但建议开发者逐步迁移到新版配置对象模式。

关键技术进展

超级掩码技术

0.9.0引入了Supermask技术，通过在训练阶段学习块稀疏掩码，显著提升了稀疏模型的精度。这一技术特别适合需要高精度稀疏模型的场景。

典型使用流程：

# 训练阶段使用Supermask
sparsify_(model, lambda x: SupermaskLinear.from_linear(x, block_size=64, sparsity_level=0.9))

# 训练完成后转换为标准线性层
sparsify_(model, lambda x: SupermaskLinear.to_linear(x, sparsity_level=0.9))
sparsify_(model, block_sparse_weight(blocksize=64))

4位动态量化新内核

新增了基于CUTLASS的W4A4（4位权重+4位激活）动态量化内核，为超低精度推理提供了新的可能性：

from torchao.quantization import int4_dynamic_activation_int4_weight
quantize_(model, int4_dynamic_activation_int4_weight)

实验性功能

MXFP8和MXFP4训练支持

针对NVIDIA Blackwell GPU，TorchAO 0.9.0提供了MXFP8和MXFP4训练与推理的早期支持。这些微缩格式为下一代硬件上的高效计算铺平了道路。

MX训练示例：

from torchao.prototype.mx_formats import swap_linear_with_mx_linear
config = MXLinearConfig(elem_dtype=torch.float8_e4m3fn, block_size=32)
swap_linear_with_mx_linear(model, config=config)

开发者工具改进

训练优化

在float8训练中支持2的幂次缩放因子
优化了FSDP内存使用，特别针对float8行级缩放训练
改进了float8训练中的配置API，使其更加直观

错误修复

修复了torch.intx在FakeQuantizeConfig中的支持问题
解决了DDP与nf4量化兼容性问题
修正了Marlin量化在SM<8.0设备上的编译问题

文档完善

0.9.0版本大幅更新了文档系统，包括：

新增稀疏化入门指南
更新支持的dtype列表
添加模块交换到张量子类的迁移教程
完善了静态量化教程

总结

TorchAO 0.9.0标志着该项目在模型优化技术上迈出了重要一步。块稀疏技术的成熟、量化API的重构以及多项新特性的加入，使得TorchAO在模型压缩和加速领域的能力得到全面提升。对于追求高效AI模型部署的开发者来说，这个版本提供了更多强有力的工具选择。

特别值得注意的是，TorchAO团队在保持API稳定性的同时，积极引入创新技术，如Supermask和MX格式支持，展现了项目的前瞻性。随着PyTorch生态系统的不断发展，TorchAO有望成为模型优化领域不可或缺的核心组件。

登录后查看全文

TorchAO 0.9.0发布：稀疏化技术升级与量化API重大革新

项目简介

核心亮点

块稀疏技术正式发布

量化API重大重构

关键技术进展

超级掩码技术

4位动态量化新内核

实验性功能

MXFP8和MXFP4训练支持

开发者工具改进

训练优化

错误修复

文档完善

总结

热门内容推荐

最新内容推荐

项目优选

TorchAO 0.9.0发布：稀疏化技术升级与量化API重大革新

项目简介

核心亮点

块稀疏技术正式发布

量化API重大重构

关键技术进展

超级掩码技术

4位动态量化新内核

实验性功能

MXFP8和MXFP4训练支持

开发者工具改进

训练优化

错误修复

文档完善

总结

相关内容推荐

热门内容推荐

最新内容推荐

项目优选