FBGEMM v1.2.0：深度学习高性能计算库的重大更新

2025-07-02 22:33:43作者：余洋婵Anita

FBGEMM（Facebook通用矩阵乘法库）是Meta开源的专为深度学习工作负载优化的高性能计算库。作为PyTorch生态系统的重要组成部分，FBGEMM在推荐系统、自然语言处理等领域的嵌入表操作和矩阵计算中发挥着关键作用。最新发布的v1.2.0版本带来了多项重要改进和新特性，特别是在表嵌入操作(TBE)、生成式AI运算(GenAI)以及硬件支持方面有显著增强。

核心功能增强

表嵌入操作(TBE)的全面升级

在GPU端的TBE实现中，v1.2.0版本新增了对int64_t类型表索引和偏移量的支持，这大大扩展了处理超大规模嵌入表的能力。同时引入了Embeddings Estimator和Generator(EEG)工具，为TBE性能基准测试提供了更强大的支持。

CPU端的TBE也有显著改进，新增了Fused8BitRowwiseQuantizedSBFloatToFloatOrHalf算子，并通过SVE2指令集将FloatToFloat16转换速度提升了75倍。此外，还加入了FP32 GEMM内核，为需要高精度计算的场景提供了更多选择。

对于SSD存储方案，此版本修复了初始化时的内存溢出(OOM)问题，并对L1和L2缓存刷新机制进行了优化，提升了大规模嵌入表在持久化存储上的性能表现。

生成式AI运算的独立封装与优化

v1.2.0版本将GenAI相关运算单独封装为FBGEMM GenAI包，简化了构建和安装流程。在算法层面，这一版本带来了多项重要优化：

针对FP8分组GEMM的多项优化，提升了混合精度计算的效率
新增BF16I4预混洗分组GEMM和BF16堆叠分组GEMM实现
F8I4分组GEMM的进一步优化，特别是针对稀疏输入的处理
新增nccl_alltoall集体通信函数，增强了分布式训练能力

这些改进特别适合当前大语言模型训练和推理的需求，能够显著提升生成式AI应用的性能。

硬件支持扩展

在硬件兼容性方面，v1.2.0版本增加了对CUDA 12.8的构建支持，并初步提供了ROCm开源构建对GenAI运算的支持。这意味着AMD GPU用户现在也能充分利用FBGEMM的高性能计算能力。

特别值得一提的是，新版本引入了一套CUDA内核启动工具，能够有效防范运行时错误，提高了GPU计算的稳定性和可靠性。

工程实践改进

在工程实践方面，v1.2.0版本有多项值得关注的改进：

构建系统优化，减少了非GenAI版本的FBGEMM_GPU构建体积
文档系统增强，特别是为GenAI包新增了专门文档
测试体系完善，增加了更多边界条件测试
错误处理机制强化，特别是针对数值稳定性的改进

这些改进使得FBGEMM在保持高性能的同时，更加稳定可靠，更适合生产环境部署。

性能优化亮点

除了功能性增强外，v1.2.0版本在性能优化方面也有多项突破：

通过调整TileShape配置，优化了大语言模型形状的处理效率
改进了FP8分组GEMM的内存访问模式，减少了数据传输开销
利用Triton编译器实现了更高效的GroupedGEMM
针对AMD GPU的特殊优化，提升了在MI300等硬件上的性能表现

这些优化使得FBGEMM在各种硬件平台上都能发挥出接近理论极限的计算性能。

总结

FBGEMM v1.2.0作为一次重要版本更新，在功能丰富性、性能表现和硬件支持等方面都有显著提升。特别是对生成式AI工作负载的专门优化，使其成为大语言模型训练和推理的有力工具。同时，改进的工程实践和更完善的文档体系，也大大降低了使用门槛。对于需要高性能矩阵计算和嵌入表操作的深度学习应用，升级到v1.2.0版本将带来明显的性能提升和功能增强。

FBGEMM

FB (Facebook) + GEMM (General Matrix-Matrix Multiplication) - https://code.fb.com/ml-applications/fbgemm/

项目地址：https://gitcode.com/gh_mirrors/fb/FBGEMM

登录后查看全文

FBGEMM v1.2.0：深度学习高性能计算库的重大更新

核心功能增强

表嵌入操作(TBE)的全面升级

生成式AI运算的独立封装与优化

硬件支持扩展

工程实践改进

性能优化亮点

总结

热门内容推荐

最新内容推荐

项目优选

FBGEMM v1.2.0：深度学习高性能计算库的重大更新

核心功能增强

表嵌入操作(TBE)的全面升级

生成式AI运算的独立封装与优化

硬件支持扩展

工程实践改进

性能优化亮点

总结

相关内容推荐

热门内容推荐

最新内容推荐

项目优选