Align-Anything项目中Llama3.1模型与ZeRO3训练的兼容性问题解析

2025-06-24 06:31:52作者：董宙帆

Align Anything: Training All-modality Model with Feedback

项目地址：https://gitcode.com/gh_mirrors/al/align-anything

在大型语言模型训练领域，DeepSpeed的ZeRO优化技术因其卓越的内存效率而广受欢迎。然而，近期在Align-Anything项目中使用Llama3.1模型时，开发团队发现了一个值得注意的技术问题：当尝试结合ZeRO3优化阶段进行训练时，模型会出现兼容性问题。

这个问题的核心在于transformers库对模型参数处理的机制变化。具体表现为在transformers 4.43.1版本中，模型嵌入层的权重参数会被自动标记为'ds_id'属性，而在4.41.2版本中则不会出现这种情况。这种底层实现的差异导致在尝试调整词嵌入大小时，参数同步机制出现异常。

技术细节上，当使用DeepSpeed的ZeRO3阶段时，模型参数会被分片存储在不同GPU上。在调整词嵌入层大小时，需要先通过GatheredParameters操作将所有分片参数收集到主GPU上进行统一处理。然而，新版transformers中引入的'ds_id'属性标记改变了参数收集的行为模式，使得参数尺寸校验出现不一致的情况。

对于需要立即开展Llama3.1模型训练的用户，项目团队提供了两个可行的解决方案：

回退使用transformers 4.41.2版本，这个版本尚未引入导致问题的修改
改用ZeRO2优化策略，该策略在最新版transformers中表现稳定

值得注意的是，这个问题不仅限于Llama3.1模型，其他需要动态调整词嵌入大小的模型训练场景都可能受到影响。项目团队已经向transformers社区提交了问题报告，并获得了积极的响应。后续的transformers版本更新中将会包含针对此问题的修复。

对于深度学习从业者而言，这个案例提醒我们：在使用前沿技术组合时，需要特别注意各组件版本间的兼容性。同时，它也展示了开源社区协作解决问题的典型流程——从问题发现、报告到最终修复的完整周期。

随着transformers库的持续更新，Align-Anything项目团队将继续跟进这一问题的发展，确保用户能够获得最佳的训练体验。对于关注模型训练优化的研究人员，理解这类底层技术细节将有助于更好地驾驭复杂的深度学习训练环境。

Align Anything: Training All-modality Model with Feedback

项目地址：https://gitcode.com/gh_mirrors/al/align-anything

登录后查看全文

项目优选

收起

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

deepin linux kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

flutter_flutter

用户可使用该项目在 OpenHarmony 平台开发应用，支持通过 IDE 或终端用 Flutter Tools 指令编译构建，基于 Flutter 3.27.4 版本，新增 impeller-vulkan 渲染模式，兼容多种开发指令与环境配置。

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体，本仓库为其提供可复用的 Skills 模块。