FlagEmbedding项目：如何正确从检查点恢复模型训练

2025-05-24 05:37:42作者：史锋燃Gardner

在深度学习模型训练过程中，经常会遇到需要从之前的检查点(checkpoint)恢复训练的情况。FlagEmbedding作为一款优秀的嵌入模型训练框架，提供了完善的检查点恢复机制，但需要正确使用才能发挥其效果。

检查点恢复的常见误区

许多用户在尝试从检查点恢复训练时，会遇到以下两个典型问题：

虽然模型权重成功加载了，但训练时的epoch计数和学习率调度却从零开始
直接使用model_name_or_path参数指定检查点路径，但训练状态没有正确恢复

这些问题通常是由于对恢复机制理解不深或参数设置不当导致的。

正确的恢复方法

FlagEmbedding基于Hugging Face的Trainer实现，要正确恢复训练，应当使用专门的resume_from_checkpoint参数。具体操作要点如下：

确保指定的是具体的检查点子目录（如checkpoint-1000），而不是上级目录
在训练命令中添加--resume_from_checkpoint <CKPT_PATH>参数
系统会自动恢复包括以下内容：
- 模型权重
- 优化器状态
- 学习率调度器状态
- 训练步数(step)和周期(epoch)计数

技术实现原理

当使用resume_from_checkpoint参数时，FlagEmbedding会：

从指定目录加载model.safetensors或pytorch_model.bin文件恢复模型权重
加载optimizer.pt恢复优化器状态（如动量等）
加载scheduler.pt恢复学习率调度器状态
读取trainer_state.json获取之前的训练进度信息

这种机制确保了训练过程能够精确地从中断处继续，而不是简单地重新开始。

最佳实践建议

定期保存检查点：设置合理的save_steps或save_strategy参数
检查点目录结构：确认恢复路径包含所有必要的状态文件
验证恢复效果：恢复后检查第一个batch的loss是否与之前连贯
日志记录：比较恢复前后的训练日志确保连续性

通过正确理解和使用FlagEmbedding的检查点恢复机制，研究人员可以更高效地利用计算资源，避免重复训练带来的时间浪费。

FlagEmbedding

Dense Retrieval and Retrieval-augmented LLMs

项目地址：https://gitcode.com/GitHub_Trending/fl/FlagEmbedding

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

135

RuoYi-Vue3

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

本项目是CANN开源社区的核心管理仓库，包含社区的治理章程、治理组织、通用操作指引及流程规范等基础信息

554

110