AgentSims 开源项目使用教程

2024-09-13 08:51:04作者：庞队千Virginia

1. 项目介绍

AgentSims 是一个易于使用的开源基础设施，专为来自各个学科的研究人员设计，用于测试他们感兴趣的具体能力。该项目旨在通过模拟环境中的任务完成来评估大型语言模型（LLM）的能力，解决了现有评估方法的局限性，如评估能力受限、基准脆弱和指标不客观等问题。

2. 项目快速启动

2.1 环境准备

在开始之前，请确保您的系统满足以下要求：

Python 3.9 或更高版本
MySQL 8.0.31 或更高版本
推荐在 MacOS 或 Linux 系统上部署以获得更好的稳定性

2.2 安装依赖

首先，克隆项目仓库：

git clone https://github.com/py499372727/AgentSims.git
cd AgentSims

安装所需的 Python 包：

pip install -r requirements.txt

2.3 配置 API Key

为了安全起见，API Key 没有包含在 Git 仓库中。请在 config 目录下创建 api_key.json 文件，并添加您的 API Key。例如：

{
  "gpt-4": "your-gpt-4-api-key",
  "gpt-3.5": "your-gpt-3.5-api-key"
}

2.4 初始化 MySQL

启动 MySQL 服务并初始化数据库：

ALTER USER 'root'@'localhost' IDENTIFIED WITH mysql_native_password BY '';
flush privileges;
create database `llm_account` default character set utf8mb4 collate utf8mb4_unicode_ci;
create database `llm_game` default character set utf8mb4 collate utf8mb4_unicode_ci;
create database `llm_game0001` default character set utf8mb4 collate utf8mb4_unicode_ci;
create database `llm_game0002` default character set utf8mb4 collate utf8mb4_unicode_ci;

2.5 启动服务器

运行以下命令启动服务器：

./restart.sh

当您在服务器终端看到 --------Server Started-------- 时，表示服务器已成功启动。

2.6 启动客户端

在浏览器中打开 client/index.html 文件以启动客户端。如果客户端未能正确打开，建议在 Python IDE 中右键点击 index.html 并选择“在浏览器中打开”。

当您在服务器终端看到 somebody linked 时，表示客户端已成功启动。

3. 应用案例和最佳实践

3.1 任务构建

研究人员可以通过添加代理和建筑物在交互式 GUI 上构建评估任务，或者通过几行代码部署和测试新的支持机制，如记忆系统、规划系统和工具使用系统。

3.2 评估目标和测量

在 AgentSims 中，评估是通过 QA 表单进行的。系统会每隔 k 个 tick 向目标代理提出一个评估问题。您可以在 config/eval.json 中自定义评估问题和测量方法。

例如：

{
  "id": "know pH",
  "target_nickname": "Alan",
  "query": "Are you acquainted with pH?",
  "measurement": "'Yes' in response",
  "interval": 1
}

3.3 运行模拟

您可以通过网页客户端上的按钮启动 tick 或 mayor，也可以通过以下命令启动：

python -u tick.py
python -u mayor.py

4. 典型生态项目

AgentSims 作为一个开放源码的沙盒，可以与其他大型语言模型评估工具和平台集成，如 Hugging Face 的 Transformers 库、OpenAI 的 API 等。这些工具和平台可以进一步扩展 AgentSims 的功能，提供更全面的评估和测试环境。

通过以上步骤，您可以快速启动并使用 AgentSims 进行大型语言模型的评估和测试。希望本教程能帮助您更好地理解和应用这一强大的开源工具。

AgentSims

AgentSims is an easy-to-use infrastructure for researchers from all disciplines to test the specific capacities they are interested in.

项目地址：https://gitcode.com/gh_mirrors/ag/AgentSims

项目优选

收起

本仓将收集和展示仓颉鸿蒙应用示例代码，欢迎大家投稿，在仓颉鸿蒙社区展现你的妙趣设计！

Cangjie

286

✍ WeChat Markdown Editor | 一款高度简洁的微信 Markdown 编辑器：支持 Markdown 语法、色盘取色、多图上传、一键下载文档、自定义 CSS 样式、一键重置等特性

Vue

112

openHiTLS

旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件，通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求，让密码技术应用更简单，同时探索后量子等先进算法创新实践，构建密码前沿技术底座！

RuoYi-Cloud-Vue3

🎉 基于Spring Boot、Spring Cloud & Alibaba、Vue3 & Vite、Element Plus的分布式前后端分离微服务架构权限管理系统

Vue

go-stock

🦄🦄🦄AI赋能股票分析：自选股行情获取，成本盈亏展示，涨跌报警推送，市场整体/个股情绪分析，K线技术指标分析等。数据全部保留在本地。支持DeepSeek，OpenAI， Ollama，LMStudio，AnythingLLM，硅基流动，火山方舟，阿里云百炼等平台或模型。

Cangjie-Examples

本仓将收集和展示高质量的仓颉示例代码，欢迎大家投稿，让全世界看到您的妙趣设计，也让更多人通过您的编码理解和喜爱仓颉语言。

Cangjie

205

MateChat

前端智能化场景解决方案UI库，轻松构建你的AI应用，我们将持续完善更新，欢迎你的使用与建议。官网地址：https://matechat.gitcode.com

383

RuoYi-Vue

🎉 基于SpringBoot，Spring Security，JWT，Vue & Element 的前后端分离权限管理系统，同时提供了 Vue3 的版本

Java

182

frog

这是一个人工生命试验项目，最终目标是创建“有自我意识表现”的模拟生命体。

Java

AgentSims 开源项目使用教程

1. 项目介绍

2. 项目快速启动

2.1 环境准备

2.2 安装依赖

2.3 配置 API Key

2.4 初始化 MySQL

2.5 启动服务器

2.6 启动客户端

3. 应用案例和最佳实践

3.1 任务构建

3.2 评估目标和测量

3.3 运行模拟

4. 典型生态项目

热门内容推荐

最新内容推荐

项目优选

AgentSims 开源项目使用教程

1. 项目介绍

2. 项目快速启动

2.1 环境准备

2.2 安装依赖

2.3 配置 API Key

2.4 初始化 MySQL

2.5 启动服务器

2.6 启动客户端

3. 应用案例和最佳实践

3.1 任务构建

3.2 评估目标和测量

3.3 运行模拟

4. 典型生态项目

相关内容推荐

热门内容推荐

最新内容推荐

项目优选