10分钟上手RD-Agent:从安装到自动化模型开发的极简指南
你是否还在为数据科学项目中的重复编码、模型调参和实验验证而困扰?RD-Agent(Research and Development Agent)作为一款开源的研发自动化工具,能让AI驱动数据科学全流程,从自动生成代码到模型优化,彻底释放你的研发效率。本文将带你从0到1搭建RD-Agent环境,完成首个自动化模型训练任务。
核心优势速览
RD-Agent目前在MLE-bench(包含75个Kaggle竞赛数据集的机器学习工程基准)上表现领先,显著超越同类工具:
| Agent | 简单任务(%) | 中等任务(%) | 复杂任务(%) | 综合得分(%) |
|---|---|---|---|---|
| RD-Agent o3(R)+GPT-4.1(D) | 51.52±6.9 | 19.3±5.5 | 26.67±0 | 30.22±1.5 |
| RD-Agent o1-preview | 48.18±2.49 | 8.95±2.36 | 18.67±2.98 | 22.4±1.1 |
| AIDE o1-preview | 34.3±2.4 | 8.8±1.1 | 10.0±1.9 | 16.9±1.1 |
数据来源:README.md
环境准备
硬件要求
- CPU: 4核以上
- 内存: 16GB以上
- 硬盘: 至少20GB空闲空间(含Docker镜像)
- 网络: 可访问国内CDN(推荐)
基础依赖安装
1. Docker环境配置
RD-Agent通过Docker容器执行代码,需先安装Docker并配置用户权限:
# Ubuntu示例安装命令
sudo apt-get update && sudo apt-get install -y docker.io
# 配置免sudo运行Docker
sudo usermod -aG docker $USER
# 注销并重新登录后验证
docker run hello-world
详细步骤:docs/installation_and_configuration.rst
2. Python环境搭建
推荐使用Conda管理Python环境(3.10或3.11版本):
# 创建环境
conda create -n rdagent python=3.10 -y
# 激活环境
conda activate rdagent
快速安装RD-Agent
普通用户安装
直接通过PyPI安装稳定版:
pip install rdagent
开发者安装(含最新特性)
从源码仓库安装开发版:
git clone https://gitcode.com/GitHub_Trending/rd/RD-Agent
cd RD-Agent
make dev
开发指南:docs/development.rst
核心配置步骤
创建环境配置文件
在项目根目录创建.env文件,配置LLM服务(支持OpenAI/DeepSeek/Azure等):
DeepSeek配置示例(国内用户推荐)
cat << EOF > .env
# 对话模型(DeepSeek官方API)
CHAT_MODEL=deepseek/deepseek-chat
DEEPSEEK_API_KEY=<你的DeepSeek密钥>
# 嵌入模型(使用SiliconFlow)
EMBEDDING_MODEL=litellm_proxy/BAAI/bge-m3
LITELLM_PROXY_API_KEY=<你的SiliconFlow密钥>
LITELLM_PROXY_API_BASE=https://api.siliconflow.cn/v1
EOF
Azure OpenAI配置示例
cat << EOF > .env
CHAT_MODEL=azure/<你的部署名称>
AZURE_API_BASE=https://<你的资源名>.openai.azure.com/
AZURE_API_KEY=<你的Azure密钥>
AZURE_API_VERSION=2024-02-15-preview
EMBEDDING_MODEL=azure/<嵌入模型部署名>
EOF
更多配置:docs/installation_and_configuration.rst
环境健康检查
执行健康检查命令验证配置:
rdagent health_check
成功输出应包含:Docker检查通过和端口19899可用
运行你的第一个自动化任务
场景1:量化因子自动生成
启动量化因子迭代优化流程:
rdagent fin_factor
该命令会自动:
- 从金融数据中发现有效因子
- 生成Python代码实现因子
- 回测因子表现并迭代优化
场景2:医学预测模型开发
以急性肾损伤预测为例:
# 1. 下载示例数据集
wget https://github.com/SunsetWolf/rdagent_resource/releases/download/ds_data/arf-12-hours-prediction-task.zip
unzip arf-12-hours-prediction-task.zip -d ./git_ignore_folder/ds_data/
# 2. 配置数据路径
dotenv set DS_LOCAL_DATA_PATH "$(pwd)/git_ignore_folder/ds_data"
dotenv set DS_SCEN rdagent.scenarios.data_science.scen.DataScienceScen
# 3. 启动模型自动开发
rdagent data_science --competition arf-12-hours-prediction-task
结果监控与可视化
启动Web界面查看任务进度和结果:
rdagent ui --port 19899 --log-dir log/ --data-science
打开浏览器访问http://localhost:19899,可查看:
- 实时日志与代码生成过程
- 模型性能指标变化曲线
- 自动生成的实验报告
进阶场景与最佳实践
Kaggle竞赛自动提交
配置Kaggle API后可实现竞赛全流程自动化:
# 配置Kaggle密钥(~/.kaggle/kaggle.json)
dotenv set DS_CODER_ON_WHOLE_PIPELINE True
dotenv set DS_IF_USING_MLE_DATA True
rdagent data_science --competition tabular-playground-series-dec-2021
场景文档:docs/scens/kaggle.rst
关键参数调优
通过环境变量调整迭代策略:
# 增加迭代次数(默认3次)
dotenv set MAX_ITERATION 5
# 启用高级代码优化
dotenv set DS_CODER_ON_WHOLE_PIPELINE True
常见问题解决
端口冲突
若19899端口被占用,使用--port参数指定其他端口:
rdagent ui --port 8080 --log-dir log/
LLM连接失败
- 检查API密钥有效性
- 验证网络连通性(可尝试设置代理)
- 确认模型名称格式正确(如DeepSeek需加
deepseek/前缀)
Docker权限问题
若出现permission denied错误:
sudo chmod 666 /var/run/docker.sock
学习资源与社区
- 官方文档:docs/index.rst
- 场景教程:docs/scens/catalog.rst
- 技术报告:R&D-Agent: An LLM-Agent Framework Towards Autonomous Data Science
通过RD-Agent,你可以将80%的重复性研发工作交给AI,专注于更具创造性的问题定义和方案设计。立即开始你的自动化研发之旅吧!
GLM-5智谱 AI 正式发布 GLM-5,旨在应对复杂系统工程和长时域智能体任务。Jinja00
GLM-5-w4a8GLM-5-w4a8基于混合专家架构,专为复杂系统工程与长周期智能体任务设计。支持单/多节点部署,适配Atlas 800T A3,采用w4a8量化技术,结合vLLM推理优化,高效平衡性能与精度,助力智能应用开发Jinja00
jiuwenclawJiuwenClaw 是一款基于openJiuwen开发的智能AI Agent,它能够将大语言模型的强大能力,通过你日常使用的各类通讯应用,直接延伸至你的指尖。Python0188- QQwen3.5-397B-A17BQwen3.5 实现了重大飞跃,整合了多模态学习、架构效率、强化学习规模以及全球可访问性等方面的突破性进展,旨在为开发者和企业赋予前所未有的能力与效率。Jinja00
AtomGit城市坐标计划AtomGit 城市坐标计划开启!让开源有坐标,让城市有星火。致力于与城市合伙人共同构建并长期运营一个健康、活跃的本地开发者生态。01
awesome-zig一个关于 Zig 优秀库及资源的协作列表。Makefile00
