multimodal-search-r1 的安装和配置教程

2025-05-28 15:25:40作者：殷蕙予

项目基础介绍

multimodal-search-r1 是一个开源项目，旨在通过端到端的强化学习框架，为大型语言模型（LMMs）赋予主动图像搜索能力。项目的目标不仅包括训练模型决定何时调用图像搜索工具，还包括有效地提取、合成和利用相关信息以支持下游推理。该项目是使LMMs能够以目标导向的方式动态与外部工具交互的基础步骤，从而提高长尾和知识密集型视觉问答（VQA）任务的性能。

该项目主要使用的编程语言是 Python。

项目使用的关键技术和框架

强化学习（RL）框架：用于训练模型主动搜索图像的能力。
OpenDeepResearcher：用于图像搜索的工具管道。
SerpApi：用于检索与图像相关的网络内容。
JINA Reader：用于处理图像数据。
LLM（Large Language Model）：用于对搜索到的内容进行总结。

项目安装和配置的准备工作

在开始安装之前，请确保您的系统中已经安装了以下软件：

Python 3.9 或更高版本
Conda（用于Python环境管理）
pip3（用于安装Python包）

详细的安装步骤

克隆项目仓库 在您的命令行中执行以下命令以克隆项目仓库：

git clone https://github.com/EvolvingLMMs-Lab/multimodal-search-r1.git
cd multimodal-search-r1

初始化 Conda 环境 创建并激活一个新的Conda环境，使用以下命令：
```
conda create -n imsearch python=3.9 -y
conda activate imsearch
```

安装项目依赖 使用以下命令安装项目所需的Python包：

pip3 install -e .
pip3 install flash-attn --no-build-isolation
pip3 install wandb

配置 wandb 替换 XXX 为您的 wandb API Key，并执行以下命令进行配置：
```
export WANDB_API_KEY="XXX"
wandb login $WANDB_API_KEY
```
实现搜索工具管道 在 tools/ 目录下实现您自己的搜索工具管道。
训练和评估模型 使用以下命令进行统一训练和评估：
```
bash scripts/run_imsearch_grpo.sh
```
请注意配置以下重要参数：
- actor_rollout_ref.rollout.name 应设置为 vllm_multiturn_imsearch 以启用多轮搜索。
- actor_rollout_ref.actor.use_multi_turn_response_mask 应设置为 True，用于精确计算损失。
- actor_rollout_ref.rollout.max_gen_round 设置为最大回合数。
- data.max_response_length 设置为每回合的最大响应长度。
- actor_rollout_ref.rollout.response_length_total 设置为所有回合（除第一回合用户提示外）的最大对话长度。

以上就是 multimodal-search-r1 的安装和配置指南，按照上述步骤操作，即可完成项目的搭建。

登录后查看全文

multimodal-search-r1 的安装和配置教程

项目基础介绍

项目使用的关键技术和框架

项目安装和配置的准备工作

详细的安装步骤

热门内容推荐

最新内容推荐

项目优选

multimodal-search-r1 的安装和配置教程

项目基础介绍

项目使用的关键技术和框架

项目安装和配置的准备工作

详细的安装步骤

相关内容推荐

热门内容推荐

最新内容推荐

项目优选