10分钟上手RD-Agent：从安装到自动化模型开发的极简指南

2026-02-04 05:15:46作者：晏闻田Solitary

Research and development (R&D) is crucial for the enhancement of industrial productivity, especially in the AI era, where the core aspects of R&D are mainly focused on data and models. We are committed to automating these high-value generic R&D processes through our open source R&D automation tool RD-Agent, which lets AI drive data-driven AI.

项目地址：https://gitcode.com/GitHub_Trending/rd/RD-Agent

你是否还在为数据科学项目中的重复编码、模型调参和实验验证而困扰？RD-Agent（Research and Development Agent）作为一款开源的研发自动化工具，能让AI驱动数据科学全流程，从自动生成代码到模型优化，彻底释放你的研发效率。本文将带你从0到1搭建RD-Agent环境，完成首个自动化模型训练任务。

核心优势速览

RD-Agent目前在MLE-bench（包含75个Kaggle竞赛数据集的机器学习工程基准）上表现领先，显著超越同类工具：

Agent	简单任务(%)	中等任务(%)	复杂任务(%)	综合得分(%)
RD-Agent o3(R)+GPT-4.1(D)	51.52±6.9	19.3±5.5	26.67±0	30.22±1.5
RD-Agent o1-preview	48.18±2.49	8.95±2.36	18.67±2.98	22.4±1.1
AIDE o1-preview	34.3±2.4	8.8±1.1	10.0±1.9	16.9±1.1

数据来源：README.md

环境准备

硬件要求

CPU: 4核以上
内存: 16GB以上
硬盘: 至少20GB空闲空间（含Docker镜像）
网络: 可访问国内CDN（推荐）

基础依赖安装

1. Docker环境配置

RD-Agent通过Docker容器执行代码，需先安装Docker并配置用户权限：

# Ubuntu示例安装命令
sudo apt-get update && sudo apt-get install -y docker.io
# 配置免sudo运行Docker
sudo usermod -aG docker $USER
# 注销并重新登录后验证
docker run hello-world

详细步骤：docs/installation_and_configuration.rst

2. Python环境搭建

推荐使用Conda管理Python环境（3.10或3.11版本）：

# 创建环境
conda create -n rdagent python=3.10 -y
# 激活环境
conda activate rdagent

快速安装RD-Agent

普通用户安装

直接通过PyPI安装稳定版：

pip install rdagent

开发者安装（含最新特性）

从源码仓库安装开发版：

git clone https://gitcode.com/GitHub_Trending/rd/RD-Agent
cd RD-Agent
make dev

开发指南：docs/development.rst

核心配置步骤

创建环境配置文件

在项目根目录创建.env文件，配置LLM服务（支持OpenAI/DeepSeek/Azure等）：

DeepSeek配置示例（国内用户推荐）

cat << EOF > .env
# 对话模型（DeepSeek官方API）
CHAT_MODEL=deepseek/deepseek-chat
DEEPSEEK_API_KEY=<你的DeepSeek密钥>

# 嵌入模型（使用SiliconFlow）
EMBEDDING_MODEL=litellm_proxy/BAAI/bge-m3
LITELLM_PROXY_API_KEY=<你的SiliconFlow密钥>
LITELLM_PROXY_API_BASE=https://api.siliconflow.cn/v1
EOF

Azure OpenAI配置示例

cat << EOF > .env
CHAT_MODEL=azure/<你的部署名称>
AZURE_API_BASE=https://<你的资源名>.openai.azure.com/
AZURE_API_KEY=<你的Azure密钥>
AZURE_API_VERSION=2024-02-15-preview
EMBEDDING_MODEL=azure/<嵌入模型部署名>
EOF

更多配置：docs/installation_and_configuration.rst

环境健康检查

执行健康检查命令验证配置：

rdagent health_check

成功输出应包含：Docker检查通过和端口19899可用

运行你的第一个自动化任务

场景1：量化因子自动生成

启动量化因子迭代优化流程：

rdagent fin_factor

该命令会自动：

从金融数据中发现有效因子
生成Python代码实现因子
回测因子表现并迭代优化

场景2：医学预测模型开发

以急性肾损伤预测为例：

# 1. 下载示例数据集
wget https://github.com/SunsetWolf/rdagent_resource/releases/download/ds_data/arf-12-hours-prediction-task.zip
unzip arf-12-hours-prediction-task.zip -d ./git_ignore_folder/ds_data/

# 2. 配置数据路径
dotenv set DS_LOCAL_DATA_PATH "$(pwd)/git_ignore_folder/ds_data"
dotenv set DS_SCEN rdagent.scenarios.data_science.scen.DataScienceScen

# 3. 启动模型自动开发
rdagent data_science --competition arf-12-hours-prediction-task

结果监控与可视化

启动Web界面查看任务进度和结果：

rdagent ui --port 19899 --log-dir log/ --data-science

打开浏览器访问http://localhost:19899，可查看：

实时日志与代码生成过程
模型性能指标变化曲线
自动生成的实验报告

进阶场景与最佳实践

Kaggle竞赛自动提交

配置Kaggle API后可实现竞赛全流程自动化：

# 配置Kaggle密钥（~/.kaggle/kaggle.json）
dotenv set DS_CODER_ON_WHOLE_PIPELINE True
dotenv set DS_IF_USING_MLE_DATA True
rdagent data_science --competition tabular-playground-series-dec-2021

场景文档：docs/scens/kaggle.rst

关键参数调优

通过环境变量调整迭代策略：

# 增加迭代次数（默认3次）
dotenv set MAX_ITERATION 5
# 启用高级代码优化
dotenv set DS_CODER_ON_WHOLE_PIPELINE True

常见问题解决

端口冲突

若19899端口被占用，使用--port参数指定其他端口：

rdagent ui --port 8080 --log-dir log/

LLM连接失败

检查API密钥有效性
验证网络连通性（可尝试设置代理）
确认模型名称格式正确（如DeepSeek需加deepseek/前缀）

Docker权限问题

若出现permission denied错误：

sudo chmod 666 /var/run/docker.sock

学习资源与社区

官方文档：docs/index.rst
场景教程：docs/scens/catalog.rst
技术报告：R&D-Agent: An LLM-Agent Framework Towards Autonomous Data Science

通过RD-Agent，你可以将80%的重复性研发工作交给AI，专注于更具创造性的问题定义和方案设计。立即开始你的自动化研发之旅吧！

RD-Agent