Megatron-LM训练恢复中的损失掩码一致性分析

2025-05-19 02:45:43作者：盛欣凯Ernestine

Ongoing research training transformer models at scale

项目地址：https://gitcode.com/GitHub_Trending/me/Megatron-LM

背景介绍

在大型语言模型训练过程中，Megatron-LM框架提供了从检查点恢复训练的功能。理论上，当设置适当的环境变量(NVTE_ALLOW_NONDETERMINISTIC_ALGO=0和NCCL_ALGO=Ring)后，从相同检查点恢复的训练应该能够实现比特级可复现性。然而，实际使用中发现，虽然损失曲线基本一致，但损失值的精度无法完全对齐。

问题本质

经过深入分析，发现问题核心在于损失掩码(loss_mask)的处理机制上。当masks_and_position_ids_are_cacheable为True时，理论上缓存的损失掩码(cached_loss_mask)应该保持不变。但现有实现中，损失掩码和缓存的损失掩码相互引用，导致第一次迭代后损失掩码被错误修改，表现为torch.sum(loss_mask)呈现单调递减趋势。

技术细节

在Megatron-LM核心代码(0.7.0版本后)中，存在以下关键处理流程：

当需要计算掩码和位置ID时，会调用_get_ltor_masks_and_position_ids函数
如果配置为可缓存，则将结果存入缓存变量
对于填充序列，会根据_pad_token_id将对应位置的损失掩码置零

问题出现在缓存机制实现上：直接引用了损失掩码对象，而非创建副本。这导致后续对损失掩码的修改会同时影响缓存值。

解决方案

正确的实现应该使用torch.clone()创建张量副本，确保缓存值不被后续操作修改。具体修改如下：

存储缓存时使用torch.clone(loss_mask)创建独立副本
从缓存读取时同样使用torch.clone()获取副本

这种修改保持了缓存值的独立性，确保每次迭代都能获得正确的损失掩码计算。

深入思考

值得注意的是，这个问题与自定义分词器的使用方式密切相关。如果错误地设置了pad_id，可能会导致掩码计算异常。在实际应用中，应当：

仔细检查分词器配置，确保pad_id设置正确
理解Megatron-LM内部对填充标记的处理逻辑
对于需要填充的场景，考虑使用框架推荐的默认值(-1)而非自定义的pad_id

最佳实践

为了确保训练恢复的比特级一致性，建议：

使用最新版本的Megatron-LM框架
严格遵循框架对分词器的配置要求
在关键训练节点验证损失计算的正确性
对于自定义修改，进行充分的单元测试
监控训练过程中的掩码统计值，确保其符合预期

通过以上措施，可以最大程度保证训练过程的可复现性和稳定性，为大型语言模型的开发提供可靠基础。

Ongoing research training transformer models at scale

项目地址：https://gitcode.com/GitHub_Trending/me/Megatron-LM

登录后查看全文

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

flutter_flutter

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

ohos_react_native

React Native鸿蒙化仓库

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

cangjie_compiler

仓颉编译器源码及 cjdb 调试工具。