视频游戏评估框架 VideoGameBench 使用指南

2025-04-19 16:50:27作者：曹令琨Iris

1. 项目介绍

VideoGameBench 是一个用于评估视觉语言模型（VLMs）在知名视频游戏上的多模态理解和推理能力的评估基准。它目前支持通过 PyBoy 模拟器运行的 Game Boy 游戏，通过 JS-DOS 运行的 MS-DOS 游戏，以及基于浏览器的游戏。VideoGameBench 提供了一种标准化的方式来评估大型语言模型在游戏理解和交互方面的性能。

2. 项目快速启动

环境搭建

首先，创建一个名为 videogamebench 的虚拟环境并激活它：

conda create -n videogamebench python=3.10
conda activate videogamebench

然后安装所需的依赖：

pip install -r requirements.txt
pip install -e .
playwright install

运行示例

以下是运行不同类型游戏的基本命令：

运行 Game Boy 游戏

将适当的 ROM 文件放入 roms/ 文件夹中，然后运行以下命令：

python main.py --game pokemon_red --model gpt-4o

运行 MS-DOS 游戏

对于 MS-DOS 游戏，使用以下命令：

python main.py --game doom2 --model gemini/gemini-2.5-pro-preview-03-25

运行带 GUI 的游戏

如果你想同时查看代理的行为、思考和内存等信息，可以添加 --enable-ui 参数：

python main.py --game warcraft2 --model anthropic/claude-3-7-sonnet-20250219 --enable-ui

仅运行网站模式

如果你想自己玩游戏，而不是通过代理，可以使用以下命令：

python main.py --game quake --website-only

3. 应用案例和最佳实践

添加新游戏

要添加新游戏，你需要进行以下步骤：

在 configs/ 文件夹中为游戏创建一个新的配置文件。
对于 Game Boy 游戏，编辑 src/consts.py 文件中的 ROM_FILE_MAP，将游戏名映射到 ROM 文件名。
对于 DOS 游戏，更新 src/consts.py 中的 GAME_URL_MAP，添加游戏的 JS-DOS 文件链接。

自定义代理行为

你可以通过编辑每个游戏的 prompt.txt 文件来自定义游戏特定的提示信息，帮助代理更好地理解游戏。

4. 典型生态项目

VideoGameBench 依赖以下项目和工具：

PyBoy：一个基于 Python 的 Game Boy 模拟器。
JS-DOS：一个用于在浏览器中运行 MS-DOS 游戏的框架。
LiteLLM：用于处理模型的库。

这些项目和工具共同构成了 VideoGameBench 的生态系统，使其能够支持多种类型的游戏和评估任务。

登录后查看全文