LLaMA-Factory项目中设置最小学习率(min_lr)的技术指南

2025-05-02 14:19:19作者：何将鹤

在LLaMA-Factory项目中使用cosine_with_min_lr学习率调度器时，开发者可能会遇到如何设置最小学习率(min_lr)的问题。本文将详细介绍这一技术细节及其解决方案。

学习率调度器概述

cosine_with_min_lr是一种基于余弦退火的学习率调度策略，它在训练过程中按照余弦函数曲线调整学习率，同时确保学习率不会低于预设的最小值。这种调度方式特别适合深度学习模型的微调阶段，可以避免学习率过小导致训练停滞的问题。

问题背景

在LLaMA-Factory项目中，当用户选择cosine_with_min_lr作为学习率调度器时，直接通过常规参数可能无法找到设置最小学习率(min_lr)的选项。这是因为该项目基于Hugging Face的Transformers库构建，相关参数需要通过特定的接口传递。

解决方案

正确的做法是使用Transformers库中TrainingArguments的lr_scheduler_kwargs参数。这个参数允许用户传递一个字典，其中可以包含学习率调度器需要的各种额外参数。

例如，要设置最小学习率为1e-5，可以在配置中添加：

lr_scheduler_kwargs = {"min_lr": 1e-5}

技术实现细节

参数传递机制：LLaMA-Factory内部会将所有训练参数传递给Hugging Face Trainer，包括lr_scheduler_kwargs中的额外参数。
调度器工作原理：cosine_with_min_lr会在训练过程中计算当前学习率，公式大致为：
```
current_lr = min_lr + 0.5*(initial_lr - min_lr)*(1 + cos(progress*π))
```
其中progress是训练进度(0到1)。
参数验证：系统会自动验证min_lr的合理性，确保它小于初始学习率且大于0。

最佳实践建议

通常min_lr设置为初始学习率的1/10到1/100较为合适。
对于大型语言模型微调，建议min_lr在1e-6到1e-5之间。
可以结合warmup阶段使用，先线性增加学习率，再进行余弦退火。

通过正确设置最小学习率，开发者可以更好地控制模型训练后期的微调过程，提高模型性能同时避免训练停滞。

登录后查看全文

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

ohos_react_native

React Native鸿蒙化仓库

flutter_flutter

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

本项目是CANN开源社区的核心管理仓库，包含社区的治理章程、治理组织、通用操作指引及流程规范等基础信息