GenAI Bench 项目全面使用指南：从安装到性能分析

2025-06-28 22:11:49作者：仰钰奇

项目概述

GenAI Bench 是一个专为生成式 AI 系统设计的性能基准测试工具，它能够对各类 AI 服务（包括文本生成、图像理解、嵌入向量计算等）进行全面的性能评估。本文将详细介绍该工具的使用方法，帮助开发者快速上手并充分利用其功能。

安装指南

开发环境搭建

如需使用最新功能或进行二次开发，建议采用开发模式安装：

确保已安装 Python 3.11
使用 uv 创建虚拟环境：
```
make uv
source .venv/bin/activate
```
以可编辑模式安装项目：
```
make install
```

核心功能解析

任务类型定义

GenAI Bench 通过任务类型（Task）来区分不同的基准测试场景，其命名遵循"输入模态-to-输出模态"的格式：

任务类型	描述	旧版本对应值
text-to-text	文本到文本生成（如聊天、问答）	chat
text-to-embeddings	文本到嵌入向量生成	embeddings
image-to-text	图像到文本生成（如视觉问答）	vision
image-to-embeddings	图像到嵌入向量生成	-

基准测试执行

文本生成测试示例

export HF_TOKEN="<your-key>"
export TRANSFORMERS_VERBOSITY=error

genai-bench benchmark --api-backend openai \
            --api-base "http://localhost:8082" \
            --api-key "your-key" \
            --api-model-name "vllm-model" \
            --model-tokenizer "/path/to/model" \
            --task text-to-text \
            --max-time-per-run 15 \
            --max-requests-per-run 300 \
            --server-engine "vLLM" \
            --server-gpu-type "H100" \
            --server-version "v0.6.0" \
            --server-gpu-count 4

关键参数说明：

--max-time-per-run：单次测试最大持续时间
--max-requests-per-run：单次测试最大请求数
--num-concurrency：并发请求数（可多值设置）

视觉任务测试

视觉任务需要指定图像数据集：

genai-bench benchmark \
            --api-backend openai \
            --api-key "your-key" \
            --api-base "http://localhost:8180" \
            --api-model-name "/models/vision-model" \
            --model-tokenizer "/models/vision-model" \
            --task image-to-text \
            --dataset-config ./config_llava-bench.json

分布式测试

当单进程无法产生足够负载时，可启用多工作进程：

--num-workers 4
--master-port 5577

注意：工作进程数不宜超过16，以避免资源争用。

数据集配置策略

GenAI Bench 支持灵活的数据集配置方式：

简单模式（命令行直接指定）

--dataset-path /path/to/data.csv \
--dataset-prompt-column "prompt"

高级模式（JSON配置文件）

{
  "source": {
    "type": "huggingface",
    "path": "ccdv/govreport-summarization",
    "huggingface_kwargs": {
      "split": "train",
      "streaming": true
    }
  },
  "prompt_column": "report"
}

视觉任务数据集配置示例：

{
  "source": {
    "type": "huggingface",
    "path": "lmms-lab/llava-bench-in-the-wild",
    "huggingface_kwargs": {
      "split": "train"
    }
  },
  "prompt_column": "question",
  "image_column": "image"
}

结果分析与可视化

生成Excel报告

genai-bench excel --experiment-folder <path> --excel-name report.xlsx

生成性能分析图表

GenAI Bench 可生成包含8个子图的综合性能分析图表：

genai-bench plot --experiments-folder <path> --group-key traffic_scenario

图表内容包括：

推理速度 vs 服务器输出吞吐量
首令牌时间 vs 服务器输出吞吐量
平均端到端延迟 vs RPS
错误率分析
更多关键性能指标...

性能优化建议

负载配置：
- 轻负载场景：--max-time-per-run 10 --max-requests-per-run 300
- 重负载场景：--max-time-per-run 30 --max-requests-per-run 100

并发设置：

--num-concurrency 1 --num-concurrency 2 --num-concurrency 4 \
--num-concurrency 8 --num-concurrency 16 --num-concurrency 32

监控提示：
- 当CPU使用率超过90%时，考虑增加工作进程数
- 关注WARNING级别的日志信息

高级功能

OCI Cohere 服务测试

genai-bench benchmark --api-backend oci-cohere \
            --config-file /path/to/oci/config \
            --api-base "https://inference.endpoint" \
            --api-model-name "model-name" \
            --task text-to-text \
            --additional-request-params '{"compartmentId": "ID", "endpointId": "ID"}'