AgentBench 使用与启动教程

2026-01-30 05:22:43作者：温玫谨Lighthearted

1. 项目介绍

AgentBench 是由 THUDM 开发的一个综合性评测框架，旨在评估大型语言模型（LLM）作为智能体在不同环境下的性能。该项目包含多个不同的环境，以全面评估 LLM 的自主操作能力，这些环境包括操作系统、数据库、知识图谱、数字卡牌游戏以及横向思维谜题等。

2. 项目快速启动

以下是快速启动 AgentBench 的步骤：

步骤 1: 准备环境

首先，克隆仓库并安装所需的依赖项。

cd AgentBench
conda create -n agent-bench python=3.9
conda activate agent-bench
pip install -r requirements.txt

确保已经正确安装了 Docker。

docker ps

步骤 2: 配置智能体

在 configs/agents/openai-chat.yaml 文件中填写你的 OpenAI API Key。你可以使用以下命令来检查智能体是否配置正确。

python -m src.client.agent_test

默认情况下会启动 gpt-3.5-turbo-0613。你可以通过修改参数来使用其他智能体。

python -m src.client.agent_test --config configs/agents/api_agents.yaml --agent gpt-3.5-turbo-0613

步骤 3: 启动任务服务器

启动任务服务器需要执行特定的脚本。假设端口 5000 到 5015 是可用的，可以使用以下命令来自动启动。

python -m src.start_task -a

执行此命令后，大约需要等待 1 分钟以完成任务设置。

步骤 4: 启动任务分配器

当任务服务器准备好后，可以在另一个终端中启动任务分配器。

python -m src.assigner

3. 应用案例和最佳实践

AgentBench 的使用案例涵盖了多种不同的任务，例如在数据库环境中执行查询，或在操作系统中执行命令。最佳实践包括为不同任务配置合适的智能体，以及根据任务需求调整参数。

4. 典型生态项目

AgentBench 的生态系统包括了多个相关的项目，例如：

AvalonBench：一个多智能体框架的实现。
VisualAgentBench：专为评估和训练基于大型多模态模型（LMMs）的视觉基础智能体而设计。

以上是 AgentBench 的基本使用和启动教程，你可以根据具体需求进行相应的配置和扩展。

AgentBench

A Comprehensive Benchmark to Evaluate LLMs as Agents (ICLR'24)

项目地址：https://gitcode.com/gh_mirrors/ag/AgentBench

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Java

nop-entropy

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

349

200

pytorch

Ascend Extension for PyTorch

无需学习 Kubernetes 的容器平台，在 Kubernetes 上构建、部署、组装和管理应用，无需 K8s 专业知识，全流程图形化管理