Torchtitan项目中FP8矩阵乘法与词表大小的优化实践

2025-06-20 08:37:38作者：劳婵绚Shirley

A PyTorch native platform for training generative AI models

项目地址：https://gitcode.com/GitHub_Trending/to/torchtitan

背景介绍

在深度学习模型训练过程中，FP8（8位浮点数）矩阵乘法因其内存占用小、计算效率高的特点，正逐渐成为优化训练性能的重要手段。Torchtitan项目团队在实现FP8矩阵乘法时，遇到了一个与词表大小(vocabulary size)相关的技术挑战。

问题发现

团队最初注意到CI(持续集成)环境中使用的测试分词器(test tokenizer)词表大小为2256。FP8矩阵乘法对矩阵维度有特殊要求——矩阵大小必须能被16整除。在未进行任何分片(sharding)的情况下，2256除以16等于141，而这个结果无法被常见的并行训练配置(如2路、4路或8路张量并行)整除。

解决方案探讨

面对这个问题，团队考虑了两种主要解决方案：

调整词表大小方案：将词表大小修改为2560(2560/16=160)，这样能够完美适配2路、4路和8路张量并行配置。这种方法需要定制或新增一个分词器。
启用FP8填充方案：通过填充(padding)使矩阵满足FP8计算要求，但这种方法会导致内存使用增加和约20%的性能下降。

深入分析与优化

在深入分析后，团队发现了一个关键点：FP8矩阵乘法主要应用于模型的前向计算过程，而涉及词表大小的输出线性层(output linear layer)通常出于数值精度考虑，不应使用FP8计算。这是行业内的常见实践，因为输出层的精度对模型性能影响较大。

基于这一认识，团队决定采用更合理的优化方案：保持输出线性层使用高精度计算(即继续使用nn.Linear而非Float8Linear)，而仅在适合的场景应用FP8矩阵乘法。这一方案既解决了技术问题，又避免了不必要的性能损失。

实施效果

通过这一优化，Torchtitan项目：

保持了模型训练过程的数值稳定性
避免了因填充导致的内存和性能开销
维持了FP8在适合场景下的性能优势
确保了与各种并行训练配置的兼容性

经验总结

这一优化实践为深度学习框架设计提供了宝贵经验：

性能优化需要全面考虑计算效率和数值精度的平衡
行业最佳实践往往基于深刻的工程经验，应当充分尊重
技术决策需要建立在对问题本质的深入理解基础上
简单的解决方案(如调整词表大小)有时可能掩盖更合理的优化方向

Torchtitan团队通过这一问题的解决，不仅优化了框架性能，也深化了对FP8计算应用场景的理解，为后续的优化工作奠定了坚实基础。

A PyTorch native platform for training generative AI models

项目地址：https://gitcode.com/GitHub_Trending/to/torchtitan

登录后查看全文

项目优选

收起

deepin linux kernel

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

🍒 Cherry Studio 是一款支持多个 LLM 提供商的桌面客户端

flutter_flutter

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用