DeepEyes 的安装和配置教程

2025-05-28 02:17:44作者：庞队千Virginia

项目地址：https://gitcode.com/gh_mirrors/de/DeepEyes

项目的基础介绍和主要的编程语言

DeepEyes 是一个开源项目，致力于通过强化学习激励“以图像思考”的能力。该项目基于 VeRL 框架，使用了 Python 作为主要的编程语言。DeepEyes 的目标是实现不需要冷启动或监督微调，直接通过结果奖励信号进行指导的端到端强化学习。

项目使用的关键技术和框架

在实现其目标的过程中，DeepEyes 使用了以下关键技术和框架：

VeRL 框架：用于构建基于强化学习的代理。
Python：作为主要的编程语言。
强化学习算法：包括 PPO、GRPO 和 reinforce++ 等。
多模态输入：允许在代理观察中动态地使用多种模态输入。
工具使用：每个样本可以通过 env_name 字段指定自己的工具使用约束。

项目安装和配置的准备工作和详细的安装步骤

准备工作

在开始安装 DeepEyes 之前，请确保您的系统满足以下要求：

Python 3.6 或更高版本。
pip 包管理器。
GPU 计算能力（对于训练过程是必须的）。

安装步骤

安装 VeRL

DeepEyes 是基于 VeRL 框架的，首先需要安装 VeRL：
```
pip install -e .
```
安装 DeepEyes 的依赖

运行以下命令来安装 DeepEyes 需要的额外依赖：
```
bash scripts/install_deepeyes.sh
```
下载预训练模型

DeepEyes 需要一个预训练的模型来开始训练。你可以从 Hugging Face 下载预训练的 Qwen 模型：
```
huggingface-cli download --resume-download https://huggingface.co/Qwen/Qwen2.5-72B-Instruct --local-dir /path/to/your/local/filedir --local-dir-use-symlinks False
```
替换 /path/to/your/local/filedir 为你希望存储模型的本地路径。

启动 vllm 服务

使用以下命令启动 vllm 服务：

vllm serve /path/to/your/local/filedir \
--port 18901 \
--gpu-memory-utilization 0.8 \
--max-model-len 32768 \
--tensor-parallel-size 8 \
--served-model-name "evaluator" \
--trust-remote-code \
--disable-log-requests

同样，确保替换 /path/to/your/local/filedir 为模型的本地路径。

准备数据

在开始训练之前，你需要准备数据集。数据集可以从 Hugging Face 下载。
启动训练

准备好数据后，可以使用以下命令启动训练。这里以 7B 模型为例：
```
bash examples/agent/final_merged_v1v8_thinklite.sh
```
对于 32B 模型，可以使用：
```
bash examples/agent/final_merged_v1v8_thinklite_32b.sh
```
训练脚本会使用 wandb 和 RL Logging Board 来可视化训练动态。