rci-agent 的项目扩展与二次开发

2025-06-16 01:34:47作者：申梦珏Efrain

项目的基础介绍

rci-agent 是一个开源项目，旨在实现一种名为 RCI 的智能代理，该代理使用预训练的语言模型来执行计算机任务，特别是在 MiniWoB++ 基准测试中。该项目是论文 "Language Models can Solve Computer Tasks" 的代码库，通过简单的 RCI 激励方案，提高了智能代理的输出质量。

项目的核心功能

rci-agent 的核心功能是通过结合语言模型和强化学习来执行计算机任务。它能够在 MiniWoB++ 环境中，根据自然语言的指导，完成各种任务。项目的关键亮点包括：

使用预训练的语言模型来生成任务动作计划。
通过显式和隐式的 RCI 循环来优化代理的行为。
在执行任务时，能够进行状态接地更新。

项目使用了哪些框架或库？

该项目主要使用 Python 语言实现，并依赖于以下框架和库：

Gym：用于创建和测试强化学习环境。
第三方AI服务：提供API接口，以便使用不同的语言模型。
Selenium：用于自动化 Web 应用程序。
Pillow：用于图像处理。
Regex：用于正则表达式操作。

此外，项目还使用了一些 Python 标准库，如 os、json 和 random 等。

项目的代码目录及介绍

项目的代码目录结构如下：

artifacts/：存储项目生成的输出文件。
computergym/：包含 MiniWoB++ 集成环境的代码。
prompt/：包含用于生成提示的代码。
.gitignore：指定 Git 忽略的文件和目录。
LICENSE：项目的 MIT 许可证文件。
README.md：项目的说明文件。
example_config.json：示例配置文件，用于存储API密钥等配置信息。
llm_agent.py：定义语言模型代理的核心逻辑。
main.py：项目的入口文件，用于启动和运行代理。
partial_reproduce.sh：用于部分重现实验结果的脚本。
prompt.py：定义生成提示的相关逻辑。
requirements.txt：项目依赖的 Python 包列表。

对项目进行扩展或者二次开发的方向

集成更多语言模型：目前项目支持多种语言模型，但可以进一步集成更多的新型语言模型，以提升代理的智能水平。
增强多任务处理能力：扩展项目以支持多任务处理，使代理能够同时处理多个任务，提高效率。
优化性能：通过优化算法和模型结构，减少资源消耗，提高执行速度。
增加新的任务环境：将项目扩展到其他类型的任务环境，如游戏、机器人控制等。
用户界面开发：开发一个用户友好的界面，以便非技术人员也能轻松配置和使用代理。
开源社区合作：鼓励更多开源社区成员参与项目，共同改进和扩展功能。

登录后查看全文

项目优选

收起

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

flutter_flutter

Oohos_react_native

React Native鸿蒙化仓库

昇腾LLM分布式训练框架

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统