FlagEmbedding项目中的Fused_adm错误分析与解决方案

2025-05-24 23:12:00作者：郦嵘贵Just

问题背景

在使用FlagEmbedding项目进行reranker模型微调时，用户遇到了一个与PyTorch分布式加载相关的Fused_adm错误。这个问题在代码库重构前并不存在，但在新版本中出现了。错误日志显示，当使用多进程进行数据加载时，系统抛出了Fused_adm相关的异常。

错误分析

Fused_adm错误通常与PyTorch的优化器实现有关，特别是在使用混合精度训练或分布式训练时。从错误日志可以看出，这个问题出现在torch尝试使用多进程进行数据加载和分布式训练时。

在深度学习训练中，特别是大规模模型训练时，通常会使用以下技术来加速训练过程：

数据并行：将数据分片到多个GPU上
模型并行：将模型分片到多个GPU上
混合精度训练：使用FP16和FP32混合精度来减少内存占用和加速计算
优化器融合：如Fused_adm，将优化器操作融合以减少通信开销

解决方案

经过排查，这个问题可以通过使用DeepSpeed的stage_1配置来解决。DeepSpeed是一个由微软开发的深度学习优化库，它提供了多种优化技术来加速大规模模型训练。

DeepSpeed的stage_1配置主要包含以下优化：

优化器状态分区：将优化器状态分散到多个GPU上，减少单个GPU的内存压力
梯度累积：支持更大的batch size
自动混合精度：更高效的混合精度训练实现

实施建议

对于遇到类似问题的用户，建议采取以下步骤：

确保安装了兼容版本的DeepSpeed库
在训练配置中明确指定使用DeepSpeed的stage_1优化
检查CUDA和PyTorch版本是否兼容
如果问题仍然存在，可以尝试禁用某些优化选项进行逐步排查

经验总结

这个案例展示了深度学习框架和优化库之间复杂的兼容性问题。当项目代码库进行重大更新时，原有的训练配置可能需要相应调整。特别是在使用高级优化技术时，版本兼容性和配置细节往往至关重要。

对于FlagEmbedding这类涉及大规模嵌入模型的项目，合理配置分布式训练参数是确保训练成功的关键因素之一。建议用户在升级项目版本后，仔细阅读更新日志，特别是关于训练配置变更的部分。

FlagEmbedding

Dense Retrieval and Retrieval-augmented LLMs

项目地址：https://gitcode.com/GitHub_Trending/fl/FlagEmbedding

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力