terminal-bench教程：零基础搭建专业AI终端评测平台

2026-02-05 04:29:06作者：齐冠琰

你是否还在为AI终端工具的评测烦恼？手动测试耗时费力，结果还不准确？本文将带你零基础搭建专业的AI终端评测平台，轻松解决这些问题。读完本文，你将能够：

快速安装和配置terminal-bench环境
了解terminal-bench的核心组件和工作原理
运行和管理评测任务
查看和分析评测结果

什么是terminal-bench

terminal-bench是一个用于测试AI代理在真实终端环境中表现的基准测试平台。它包含一个任务数据集和一个执行工具，能够将语言模型连接到终端沙箱，评估AI代理处理现实世界端到端任务的能力。

terminal-bench主要由两部分组成：

任务数据集：包含约100个任务，每个任务都有英文指令、测试脚本和参考解决方案
执行工具：将语言模型连接到终端沙箱，执行评测任务

快速安装

terminal-bench作为pip包分发，可以使用Terminal-Bench CLI工具tb运行。

使用uv安装（推荐）

uv tool install terminal-bench

使用pip安装

pip install terminal-bench

核心组件解析

任务数据集

任务数据集是terminal-bench的重要组成部分，每个任务包含：

英文指令
验证AI代理是否成功完成任务的测试脚本
解决任务的参考（"oracle"）解决方案

任务位于仓库的tasks/文件夹中，你可以浏览这些任务来了解terminal-bench的能力范围。

执行工具

执行工具是连接语言模型和终端沙箱的桥梁，其核心代码在terminal_bench/harness/harness.py中实现。它负责：

初始化评测环境
运行AI代理执行任务
执行测试脚本验证任务完成情况
收集和分析评测结果

执行流程

graph TD
    A[初始化Harness] --> B[加载任务数据集]
    B --> C[创建AI代理]
    C --> D[运行任务]
    D --> E[执行测试脚本]
    E --> F[解析测试结果]
    F --> G[生成评测报告]

运行你的第一个评测

基本命令格式

tb run \
    --agent terminus \
    --model anthropic/claude-3-7-latest \
    --dataset-name terminal-bench-core \
    --dataset-version 0.1.1 \
    --n-concurrent 8

参数说明

参数	说明
--agent	用于生成命令的代理名称
--model	要使用的模型名称
--dataset-name	要使用的数据集名称
--dataset-version	数据集版本
--n-concurrent	最大并发任务数
--output-path	输出目录路径，结果和日志将写入此处
--task-ids	要运行的任务ID列表
--n-tasks	要运行的任务数量
--n-attempts	每个任务的尝试次数

高级配置

配置文件

你可以使用配置文件来管理评测参数，避免每次运行时输入大量命令行参数。配置文件格式为YAML，示例如下：

agent: terminus
model: anthropic/claude-3-7-latest
dataset:
  name: terminal-bench-core
  version: 0.1.1
output_path: ./results
n_concurrent: 4
n_attempts: 2

使用配置文件运行评测：

tb run --config my_config.yaml

自定义任务

如果你想添加自定义任务，可以按照以下步骤操作：

在tasks/目录下创建新的任务文件夹
编写任务指令、测试脚本和参考解决方案
创建task.yaml文件描述任务属性
提交PR贡献你的任务

详细的任务创建指南，请参考官方文档。

结果分析

评测结果将保存在指定的输出目录中，主要包含：

results.json：任务执行结果的详细记录
run.log：运行日志文件
任务特定目录：每个任务的详细输出，包括终端会话记录和测试结果

你可以通过dashboard查看和分析评测结果，dashboard的相关代码位于dashboard/目录。

总结与展望

通过本文的介绍，你已经了解了terminal-bench的基本概念、安装方法和使用流程。现在你可以开始搭建自己的AI终端评测平台，评估各种AI代理在真实终端环境中的表现。

terminal-bench目前处于beta阶段，未来几个月将扩展为AI代理在文本环境中的综合测试平台。我们欢迎任何贡献，特别是新的具有挑战性的任务！

如果你觉得terminal-bench有用，请引用我们：

@misc{tbench_2025,
      title={Terminal-Bench: A Benchmark for AI Agents in Terminal Environments}, 
      url={https://gitcode.com/GitHub_Trending/tb/t-bench}, 
      author={The Terminal-Bench Team}, year={2025}, month={Apr}}

点赞、收藏、关注三连，获取更多AI评测技巧和terminal-bench最新动态！

terminal-bench

A benchmark for LLMs on complicated tasks in the terminal

项目地址：https://gitcode.com/GitHub_Trending/tb/terminal-bench

登录后查看全文

terminal-bench教程：零基础搭建专业AI终端评测平台

什么是terminal-bench

快速安装

使用uv安装（推荐）

使用pip安装

核心组件解析

任务数据集

执行工具

执行流程

运行你的第一个评测

基本命令格式

参数说明

高级配置

配置文件

自定义任务

结果分析

总结与展望

热门内容推荐

最新内容推荐

项目优选

terminal-bench教程：零基础搭建专业AI终端评测平台

什么是terminal-bench

快速安装

使用uv安装（推荐）

使用pip安装

核心组件解析

任务数据集

执行工具

执行流程

运行你的第一个评测

基本命令格式

参数说明

高级配置

配置文件

自定义任务

结果分析

总结与展望

相关内容推荐

热门内容推荐

最新内容推荐

项目优选