首页
/ terminal-bench教程:零基础搭建专业AI终端评测平台

terminal-bench教程:零基础搭建专业AI终端评测平台

2026-02-05 04:29:06作者:齐冠琰

你是否还在为AI终端工具的评测烦恼?手动测试耗时费力,结果还不准确?本文将带你零基础搭建专业的AI终端评测平台,轻松解决这些问题。读完本文,你将能够:

  • 快速安装和配置terminal-bench环境
  • 了解terminal-bench的核心组件和工作原理
  • 运行和管理评测任务
  • 查看和分析评测结果

什么是terminal-bench

terminal-bench是一个用于测试AI代理在真实终端环境中表现的基准测试平台。它包含一个任务数据集和一个执行工具,能够将语言模型连接到终端沙箱,评估AI代理处理现实世界端到端任务的能力。

terminal-bench主要由两部分组成:

  • 任务数据集:包含约100个任务,每个任务都有英文指令、测试脚本和参考解决方案
  • 执行工具:将语言模型连接到终端沙箱,执行评测任务

快速安装

terminal-bench作为pip包分发,可以使用Terminal-Bench CLI工具tb运行。

使用uv安装(推荐)

uv tool install terminal-bench

使用pip安装

pip install terminal-bench

核心组件解析

任务数据集

任务数据集是terminal-bench的重要组成部分,每个任务包含:

  • 英文指令
  • 验证AI代理是否成功完成任务的测试脚本
  • 解决任务的参考("oracle")解决方案

任务位于仓库的tasks/文件夹中,你可以浏览这些任务来了解terminal-bench的能力范围。

执行工具

执行工具是连接语言模型和终端沙箱的桥梁,其核心代码在terminal_bench/harness/harness.py中实现。它负责:

  • 初始化评测环境
  • 运行AI代理执行任务
  • 执行测试脚本验证任务完成情况
  • 收集和分析评测结果

执行流程

graph TD
    A[初始化Harness] --> B[加载任务数据集]
    B --> C[创建AI代理]
    C --> D[运行任务]
    D --> E[执行测试脚本]
    E --> F[解析测试结果]
    F --> G[生成评测报告]

运行你的第一个评测

基本命令格式

tb run \
    --agent terminus \
    --model anthropic/claude-3-7-latest \
    --dataset-name terminal-bench-core \
    --dataset-version 0.1.1 \
    --n-concurrent 8

参数说明

参数 说明
--agent 用于生成命令的代理名称
--model 要使用的模型名称
--dataset-name 要使用的数据集名称
--dataset-version 数据集版本
--n-concurrent 最大并发任务数
--output-path 输出目录路径,结果和日志将写入此处
--task-ids 要运行的任务ID列表
--n-tasks 要运行的任务数量
--n-attempts 每个任务的尝试次数

高级配置

配置文件

你可以使用配置文件来管理评测参数,避免每次运行时输入大量命令行参数。配置文件格式为YAML,示例如下:

agent: terminus
model: anthropic/claude-3-7-latest
dataset:
  name: terminal-bench-core
  version: 0.1.1
output_path: ./results
n_concurrent: 4
n_attempts: 2

使用配置文件运行评测:

tb run --config my_config.yaml

自定义任务

如果你想添加自定义任务,可以按照以下步骤操作:

  1. tasks/目录下创建新的任务文件夹
  2. 编写任务指令、测试脚本和参考解决方案
  3. 创建task.yaml文件描述任务属性
  4. 提交PR贡献你的任务

详细的任务创建指南,请参考官方文档。

结果分析

评测结果将保存在指定的输出目录中,主要包含:

  • results.json:任务执行结果的详细记录
  • run.log:运行日志文件
  • 任务特定目录:每个任务的详细输出,包括终端会话记录和测试结果

你可以通过dashboard查看和分析评测结果,dashboard的相关代码位于dashboard/目录。

总结与展望

通过本文的介绍,你已经了解了terminal-bench的基本概念、安装方法和使用流程。现在你可以开始搭建自己的AI终端评测平台,评估各种AI代理在真实终端环境中的表现。

terminal-bench目前处于beta阶段,未来几个月将扩展为AI代理在文本环境中的综合测试平台。我们欢迎任何贡献,特别是新的具有挑战性的任务!

如果你觉得terminal-bench有用,请引用我们:

@misc{tbench_2025,
      title={Terminal-Bench: A Benchmark for AI Agents in Terminal Environments}, 
      url={https://gitcode.com/GitHub_Trending/tb/t-bench}, 
      author={The Terminal-Bench Team}, year={2025}, month={Apr}} 

点赞、收藏、关注三连,获取更多AI评测技巧和terminal-bench最新动态!

登录后查看全文
热门项目推荐
相关项目推荐