直接偏好优化完整指南：让AI决策更智能的终极方案

2026-01-14 18:53:37作者：戚魁泉Nursing

直接偏好优化（Direct Preference Optimization，简称DPO）是一种革命性的语言模型训练方法，它让AI能够直接从人类偏好数据中学习，而无需复杂的奖励模型训练。🚀

DPO算法的核心优势在于简化了传统强化学习从人类反馈（RLHF）的复杂流程，通过直接优化策略模型来匹配人类偏好，大大提高了训练效率和模型性能。这个开源项目提供了DPO的参考实现，支持多种主流语言模型和数据集。

🌟 DPO训练两阶段流程

DPO训练过程分为两个关键阶段：

监督微调（SFT）阶段

在第一阶段，你需要对目标数据集进行监督微调。这确保了在后续偏好学习阶段，策略模型能够理解偏好数据的分布特征。

快速开始SFT命令：

python -u train.py model=pythia28 datasets=[hh] loss=sft exp_name=anthropic_dpo_pythia28

偏好学习阶段

第二阶段使用DPO算法进行偏好学习，让模型学会区分更好的回答。

DPO训练命令示例：

python -u train.py model=pythia28 datasets=[hh] loss=dpo loss.beta=0.1 model.archive=/path/to/sft/checkpoint/policy.pt

⚙️ 配置系统详解

项目的配置系统非常灵活，主要配置文件包括：

主配置文件：config/config.yaml
损失函数配置：config/loss/dpo.yaml
模型配置：在config/model/目录下

🚀 实战案例：Pythia 2.8B模型训练

环境准备

首先创建虚拟环境并安装依赖：

python3 -m venv env
source env/bin/activate
pip install -r requirements.txt

SFT训练步骤

使用FSDP混合精度训练加速：

python -u train.py model=pythia28 datasets=[hh] loss=sft exp_name=anthropic_dpo_pythia28 gradient_accumulation_steps=2 batch_size=64

DPO偏好学习

完成SFT后，使用DPO进行偏好学习：

python -u train.py model=pythia28 datasets=[hh] loss=dpo loss.beta=0.1 model.archive=/path/to/LATEST/policy.pt

🛠️ 训练器选择策略

项目提供三种训练器，满足不同硬件需求：

BasicTrainer

适合单GPU训练，简单可靠

FSDPTrainer

推荐的多GPU训练方案，显著提升训练速度

TensorParallelTrainer

实验性功能，适合高级用户

📊 数据集扩展指南

轻松添加自定义数据集到preference_datasets.py文件中。每个数据集需要返回包含三个关键字段的字典：

responses：响应列表
pairs：偏好对
sft_target：SFT目标响应

💡 性能优化技巧

混合精度训练：使用model.fsdp_policy_mp=bfloat16获得50%速度提升
梯度累积：通过gradient_accumulation_steps参数优化内存使用
激活检查点：使用activation_checkpointing=true减少显存占用

🎯 核心参数调优

在config/loss/dpo.yaml中，最重要的参数是：

beta：DPO温度参数，推荐0.1-0.5
label_smoothing：保守DPO噪声参数

直接偏好优化技术正在改变AI训练的游戏规则，让语言模型能够更直接、更高效地从人类偏好中学习。通过这个开源项目，你可以快速上手这一前沿技术，构建更智能、更符合人类价值观的AI系统。✨

direct-preference-optimization

Reference implementation for DPO (Direct Preference Optimization)

项目地址：https://gitcode.com/gh_mirrors/di/direct-preference-optimization

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

239

100

nop-entropy

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

torchair

TorchAir 支持用户基于PyTorch框架和torch_npu插件在昇腾NPU上使用图模式进行推理。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Vue

1.28 K

705